BERT, Electra, XLNet, RoBERTa, T5

BERT - Bidirectional Encoder Representations from Transformers

- 방대한 학습 데이터를 미리 학습해놓은 모델

- BiMM(MLM, NSP) 방식을 사용해 단어, 문장, 위치 임베딩을 진행 후 이를 합쳐 모델을 학습

- NLU task에서 기존 Word2Vec, GloVe 등의 방식보다 성능이 대폭 개선

- 단점 : 일반 NLP 모델에서는 잘 작동하지만 특정 분야(과학, 금융 등)의 언어모델에서는 성능이 떨어지는데, 각 분야마다 사용 언어가 다르고, 언어 특성이 다르기 때문, 특정 분야의 BERT 성능 개선을 위해서는 그 분야의 언어 데이터를 수집하고 추가 학습이 필요함

* MLM : Masked Language Model, 입력 문장에서 임의로 토큰을 버리고(Mask), 그 토큰을 맞추는 방식으로 학습을 진행

* NSP : Next Sentence Prediction, 두 문장을 주고 순서를 예측하는 방식으로, 문장 간 관련성을 고려하며 학습을 진행

Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately

- TensorFlow 기반 오픈소스 모델

- MLM 방식의 단점 (전체 토큰 중 15%만 학습하므로 학습 시 많은 비용이 듬)을 해결하기 위해 RTD(Replaced Token Detection)이란 새로운 방식을 사용함

- RTD는 generator를 이용, 실제 입력의 일부 토큰을 진짜와 비슷한 가짜 토큰으로 바꾸고, 각 토큰이 실제 입력에 있는 진짜 토큰인지 가짜 토큰인지 이진 분류하는 방식

- 이는 GAN과 비슷한 구조이지만 GAN은 아님

- 상대적으로 적은 리소스를 사용해 BERT보다 효율적으로 학습을 진행

- 정리하자면, BERT보다 가성비가 좋은 모델인데 성능이 오히려 좋음

XLNet

- GPT로 대표되는 auto-regressive(AR) 모델과 BERT로 대표되는 auto-encoder(AE)모델의 장점을 합침

- 이를 Permutation Language Modeling이라 하며, 순서를 섞어서 예측

- MLM을 이용하지 않아 pre-training과 fine-tuning사이의 불일치가 없음

- BERT보다 좋은 representation을 학습하면서 GPT처럼 autoregressive한 특성을 가지므로 generation task에서 좋은 성능을 기대

* AutoRegressive

- 시퀀스가 주어졌을때 다음 토큰에 대한 분포를 찾아내는 방식

- Forward와 Backward가 있는데 단방향만 가능함

- Text Generation과 잘맞는다.(시퀀스를 보고 다음 토큰을 예측)

* AutoEncoding

- 전체 중 일부를 masking한 뒤 해당 토큰을 맞춘다.

- 전체를 보고 맞추기 때문에 문맥 파악, 주제 파악 등에 좋다.

- masking 토큰들이 독립적이라고 가정한다는 단점이 있다.

- masking을 하므로 generalized model에서는 쓰면 안된다.

- real world에는 mask라는 토큰이 없고, long-term에서 성능이 좋지 않다.

AR의 문제점	단일 방향 정보만 이용하여 학습
AE의 문제점	masking token이 독립적으로 예측하기 때문에 토큰 사이의 의존도는 학습할 수 없음 Finetuning(BERT를 문제에 필요한 데이터로 재학습)과정에서 masking token이 등장하지 않으므로 pretraining과 findtuning사이에 불일치가 일어남

RoBERTa - A Robustly Optimized BERT Pretraining Approach

- RoBERTa는 BERT의 개선 학습 기법

- BERT가 상당히 undertrained 된 것을 발견함

- BERT에 여러가지 tuning을 진행

가. Training the model longer with bigger batch, over more data

나. NSP loss 제거

다. Longer sequence를 넣어줌

라. Dynamic Masking 적용

- 기존 BERT나 XLNet 보다 우수한 성능을 보임

- 학습 모델 설계의 중요성이 대두됨

- 정리하면, BERT도 설계 잘하면 성능이 좋다는 것을 입증

T5 - Text-To-Text Transfer Transformer

- T5에서는 클래스 레이블이나 입력 범위만 출력할 수 있는 BERT 스타일 모델과 달리 입력과 출력이 항상 텍스트 문자열인 통합된 텍스트-텍스트 형식으로 모든 NLP 작업을 재구성할 것을 제안

- T5에 적용된 방법론

Model Architecture	Encoder , Decoder only 모델 보다 Basic transformer 구조가 높은 성능을 보임
Pretraining Objectives	Pretraining에서 Noising 된 input을 Denoising하며 단어를 예측하는 방식이 가장 효율적인 방법임
Unlabeled datasets	Domain specific data는 task에 도움이 되지만 데이터의 크기가 작은경우 overfitting을 야기함
Training strategies	multitask learning이 unsupervised pre-training과 비슷한 성능 보임 학습시 task별 적절한 proportion이 필요함
Scaling	모델 크기를 늘리거나 ,앙상블을 시도하며 실험 진행. 작은모델을 큰 데이터로 학습하는게 효과적이라는것 발견함
Pushing the limits	110억개 파라미터를 가지는 모델을 훈련하여 SOTA 달성함 1 trillon 개가 넘는 token에 대해 훈련 진행함

- T5는 파라미터수가 BERT의 2배이므로 높은 수준의 자원이 필요

참고:

https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html

Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer

Posted by Adam Roberts, Staff Software Engineer and Colin Raffel, Senior Research Scientist, Google Research Over the past few years, tr...

ai.googleblog.com

https://lsjsj92.tistory.com/629

자연어처리(nlp) ELECTRA 논문 리뷰 - Pre-training Text Encoders as Discriminators Rather than Generators

포스팅 개요 이번 포스팅은 자연어처리(nlp) 논문 중 ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators 라는 논문을 리뷰하는 포스팅입니다. 본 논문은 ELECTRA 라고 많이 알려진..

lsjsj92.tistory.com

https://blog.pingpong.us/xlnet-review/

꼼꼼하고 이해하기 쉬운 XLNet 논문 리뷰

Review of XLNet: Generalized Autoregressive Pretraining for Language Understanding

blog.pingpong.us

http://dsba.korea.ac.kr/seminar/?mod=document&uid=247

[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5)

1. Topic - Transformer 기반의 언어모델들에대한 정리 및 비교 (2018~2019년 발표된 논문) 2. Overview Natural Language Process (NLP)는 transformer의 등장으로 엄청난 발전을 이루었다. 특히 2018년에 발표된 BERT와

dsba.korea.ac.kr

'AI > ETC' 카테고리의 다른 글

윈도우 cmd에서 nvidia-smi 실시간 모니터링 (0)	2022.04.29
DOM (0)	2021.12.12

스푸트니크 공방

BERT, Electra, XLNet, RoBERTa, T5

BERT - Bidirectional Encoder Representations from Transformers

Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately

XLNet

RoBERTa - A Robustly Optimized BERT Pretraining Approach

T5 - Text-To-Text Transfer Transformer

'AI > ETC' 카테고리의 다른 글

티스토리툴바

BERT, Electra, XLNet, RoBERTa, T5

BERT - Bidirectional Encoder Representations from Transformers

Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately

XLNet

RoBERTa - A Robustly Optimized BERT Pretraining Approach

T5 - Text-To-Text Transfer Transformer

'AI > ETC' 카테고리의 다른 글

'AI/ETC' Related Articles

티스토리툴바