본문 바로가기

AI/AI model

Electra

Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately

 

pre-trained model 을 학습시키기 위한 pre-training methods는 크게 두가지 범주로 나눌 수 있다.

 

 

 

LM MLM
- 입력 텍스트를 단방향으로 처리하여 다음 단어를 예측
- 다음 단어를 예측하는 태스크에 강함
- 마스크된 언어모델로 텍스트의 중간 중간을 랜덤하게 감추고, 예측을 수행
- 단방향이 아니기 때문에 토큰의 왼쪽과 오른쪽 모두에서 예측이 가능하다는 장점이 있음
- 입력 텍스트의 중간중간 토큰을 마스크 처리하기 때문에 각 문장에서 학습하는 양이 줄어드는 단점이 생김
GPT BERT, RoBERTa

 

Electra는 대체 토큰 감지(RTD, Replaced token detection)이라는 사전 훈련 작업을 통해 MLM 모델을 훈련시킴, 이는 GAN(Generative Adversarial Network)에서 영감을 얻음.

 

기존 MLM 모델과 가장 큰 차이는 BERT처럼 토큰을 [MASK]로 교체하지 않고, 일부 입력 토큰을 그럴듯한 가짜로 대체하여 입력값을 교체한다.

 

 

RTD는 모든 입력위치에서 학습하면서 양방향 모델을 학습

 

 

사전 훈련 과정에서 모델(Discriminator)이 원래 입력에서 어떤 토큰이 교체 또는 동일하게 유지되었는지를 결정하도록 요구함. 

 

대체 토큰은 Generator 라는 다른 신경망(BERT 모델)에서 생성됨. Generator와 Discriminator는 동일한 입력 단어 임베드를 공유함.

 

사전 훈련 후 Generator는 내려지고, Discriminator는 다운 스트림 학습에서 미세 조정됨

 

 

RTD 작업에 대한 내용, 가짜 토큰은 ELECTRA와 공동으로 훈련된 작은 마스크 언어 모델에서 샘플링 됨

 

 

pre-training methods
 : pre-trained model을 만들기 위한 학습 방법

pre-trained model
 : 방대한 양의 학습 데이터를 활용해 학습을 완료한 모델, 모델의 구조와 파라미터 최적값이 학습을 통해 정해져 있음, 성능이 좋은 모델을 사용할 수 있고, 오랜 시간 대용량 데이터를 학습한 모델을 효율적으로 사용할 수 있음


Electra 성능

 

Glove, Elmo, BERT, RoBERTa, XLNet 에 근사한 성능을 제공하지만 다른 NLP 모델에 비해 25% 미만의 학습으로도 위 PLM과 근사한 성능을 제공함으로, 이전 방법에 비해 실질적으로 개선된 것을 알 수 있음.

 

 

 


원문 출처

https://ai.googleblog.com/2020/03/more-efficient-nlp-model-pre-training.html

 

More Efficient NLP Model Pre-training with ELECTRA

Posted by Kevin Clark, Student Researcher and Thang Luong, Senior Research Scientist, Google Research, Brain Team Recent advances in langu...

ai.googleblog.com

 

Electra 오픈 소스

https://github.com/google-research/electra

 

GitHub - google-research/electra: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators - GitHub - google-research/electra: ELECTRA: Pre-training Text Encoders as Discriminators Rather Than Generators

github.com

 

반응형