One-Hot encoding
: categorical value 를 나타내기 위한 표현 방법
- categorical value와 continuous value의 차이
categorical value | continuous value |
- 단어, 클래스 등 - 범위가 정해져 있다. - 비슷한 값일지라도 상관없는 의미를 지닌다. |
- 키, 몸무게 등 - 연속적인 실수 값을 가진다. - 비슷한 값은 비슷한 의미를 지닌다. |
- One-Hot encoding은 크기가 의미를 갖는 integer 값 대신, 1개의 1과 n-1개의 0으로 이루어진 n차원의 벡터
- One-Hot Vector는 Sparse Vector라고도 부름
* sparse vector: 대부분의 차원이 0으로 이루어짐(희소 벡터)
* dense vector: sparse vector의 반대 개념으로 대부분의 차원이 0이 아닌 값으로 이루어짐
- Sparse Vector의 문제점: 서로 다른 두 벡터의 값이 항상 직교(cosine similarity=0)하므로 두 샘플 사이의 유사도(거리)를
구할 수 없다.
- 이런 문제점은 Vector 임베딩에 대한 동기부여가 된다.
- NLP에서 단어는 categorical and discrete value의 속성을 가지므로 one-hot representation으로 표현하지만 실제 존재하는 단어 사이의 유사도를 표현할 수 없는 문제가 있다.
- 이를 해결하기 위해 NLP에서는 Word Embedding Vectors(Word2Vec or DNN)을 통해 차원 축소 및 dense vector로 표현한다.
김기현 님의 딥러닝 강의를 수강하며 정리한 내용입니다.
출처: fastcampus
반응형
'AI > 머신러닝&딥러닝' 카테고리의 다른 글
Hidden Representations (0) | 2022.06.21 |
---|---|
AutoEncoder (0) | 2022.06.20 |
feature (0) | 2022.06.20 |
EDA: Exploratory Data Analysis (0) | 2022.05.31 |
진짜 나를 위한 딥러닝 #순차 데이터 #순환 신경망 (0) | 2022.02.09 |