One-hot Encoding

One-Hot encoding

: categorical value 를 나타내기 위한 표현 방법

- categorical value와 continuous value의 차이

categorical value	continuous value
- 단어, 클래스 등 - 범위가 정해져 있다. - 비슷한 값일지라도 상관없는 의미를 지닌다.	- 키, 몸무게 등 - 연속적인 실수 값을 가진다. - 비슷한 값은 비슷한 의미를 지닌다.

- One-Hot encoding은 크기가 의미를 갖는 integer 값 대신, 1개의 1과 n-1개의 0으로 이루어진 n차원의 벡터

- One-Hot Vector는 Sparse Vector라고도 부름

* sparse vector: 대부분의 차원이 0으로 이루어짐(희소 벡터)

* dense vector: sparse vector의 반대 개념으로 대부분의 차원이 0이 아닌 값으로 이루어짐

- Sparse Vector의 문제점: 서로 다른 두 벡터의 값이 항상 직교(cosine similarity=0)하므로 두 샘플 사이의 유사도(거리)를

구할 수 없다.

- 이런 문제점은 Vector 임베딩에 대한 동기부여가 된다.

- NLP에서 단어는 categorical and discrete value의 속성을 가지므로 one-hot representation으로 표현하지만 실제 존재하는 단어 사이의 유사도를 표현할 수 없는 문제가 있다.

- 이를 해결하기 위해 NLP에서는 Word Embedding Vectors(Word2Vec or DNN)을 통해 차원 축소 및 dense vector로 표현한다.

김기현 님의 딥러닝 강의를 수강하며 정리한 내용입니다.

출처: fastcampus

Hidden Representations (0)	2022.06.21
AutoEncoder (0)	2022.06.20
feature (0)	2022.06.20
EDA: Exploratory Data Analysis (0)	2022.05.31
진짜 나를 위한 딥러닝 #순차 데이터 #순환 신경망 (0)	2022.02.09