Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately
pre-trained model 을 학습시키기 위한 pre-training methods는 크게 두가지 범주로 나눌 수 있다.
LM | MLM |
- 입력 텍스트를 단방향으로 처리하여 다음 단어를 예측 - 다음 단어를 예측하는 태스크에 강함 |
- 마스크된 언어모델로 텍스트의 중간 중간을 랜덤하게 감추고, 예측을 수행 - 단방향이 아니기 때문에 토큰의 왼쪽과 오른쪽 모두에서 예측이 가능하다는 장점이 있음 - 입력 텍스트의 중간중간 토큰을 마스크 처리하기 때문에 각 문장에서 학습하는 양이 줄어드는 단점이 생김 |
GPT | BERT, RoBERTa |
Electra는 대체 토큰 감지(RTD, Replaced token detection)이라는 사전 훈련 작업을 통해 MLM 모델을 훈련시킴, 이는 GAN(Generative Adversarial Network)에서 영감을 얻음.
기존 MLM 모델과 가장 큰 차이는 BERT처럼 토큰을 [MASK]로 교체하지 않고, 일부 입력 토큰을 그럴듯한 가짜로 대체하여 입력값을 교체한다.
사전 훈련 과정에서 모델(Discriminator)이 원래 입력에서 어떤 토큰이 교체 또는 동일하게 유지되었는지를 결정하도록 요구함.
대체 토큰은 Generator 라는 다른 신경망(BERT 모델)에서 생성됨. Generator와 Discriminator는 동일한 입력 단어 임베드를 공유함.
사전 훈련 후 Generator는 내려지고, Discriminator는 다운 스트림 학습에서 미세 조정됨
pre-training methods
: pre-trained model을 만들기 위한 학습 방법
pre-trained model
: 방대한 양의 학습 데이터를 활용해 학습을 완료한 모델, 모델의 구조와 파라미터 최적값이 학습을 통해 정해져 있음, 성능이 좋은 모델을 사용할 수 있고, 오랜 시간 대용량 데이터를 학습한 모델을 효율적으로 사용할 수 있음
Electra 성능
Glove, Elmo, BERT, RoBERTa, XLNet 에 근사한 성능을 제공하지만 다른 NLP 모델에 비해 25% 미만의 학습으로도 위 PLM과 근사한 성능을 제공함으로, 이전 방법에 비해 실질적으로 개선된 것을 알 수 있음.
원문 출처
https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html
Electra 오픈 소스
https://github.com/google-research/electra
'AI > AI model' 카테고리의 다른 글
일렉트라(electra) 모델 사전학습 feat. RTX 3060 12G (0) | 2022.10.06 |
---|---|
RTX 30XX 번대 GPU에서 구글 공식 Electra 레퍼런스 구동 (0) | 2022.08.08 |
transfer learning (0) | 2022.04.26 |