본문 바로가기

AI/머신러닝&딥러닝

One-hot Encoding

One-Hot encoding

: categorical value 를 나타내기 위한 표현 방법

 

- categorical value와 continuous value의 차이

categorical value continuous value
- 단어, 클래스 등
- 범위가 정해져 있다.

- 비슷한 값일지라도 상관없는 의미를 지닌다.
- 키, 몸무게 등
- 연속적인 실수 값을 가진다.

- 비슷한 값은 비슷한 의미를 지닌다.

 

- One-Hot encoding은 크기가 의미를 갖는 integer 값 대신, 1개의 1과 n-1개의 0으로 이루어진 n차원의 벡터

- One-Hot Vector는 Sparse Vector라고도 부름

  * sparse vector: 대부분의 차원이 0으로 이루어짐(희소 벡터)

  * dense vector: sparse vector의 반대 개념으로 대부분의 차원이 0이 아닌 값으로 이루어짐

- Sparse Vector의 문제점: 서로 다른 두 벡터의 값이 항상 직교(cosine similarity=0)하므로 두 샘플 사이의 유사도(거리)를

  구할 수 없다.

- 이런 문제점은 Vector 임베딩에 대한 동기부여가 된다.

 

- NLP에서 단어는 categorical and discrete value의 속성을 가지므로 one-hot representation으로 표현하지만 실제 존재하는 단어 사이의 유사도를 표현할 수 없는 문제가 있다.

- 이를 해결하기 위해 NLP에서는 Word Embedding Vectors(Word2Vec or DNN)을 통해 차원 축소 및 dense vector로 표현한다.

 

 

 


김기현 님의 딥러닝 강의를 수강하며 정리한 내용입니다.

출처: fastcampus

반응형

'AI > 머신러닝&딥러닝' 카테고리의 다른 글

Hidden Representations  (0) 2022.06.21
AutoEncoder  (0) 2022.06.20
feature  (0) 2022.06.20
EDA: Exploratory Data Analysis  (0) 2022.05.31
진짜 나를 위한 딥러닝 #순차 데이터 #순환 신경망  (0) 2022.02.09