BERT - Bidirectional Encoder Representations from Transformers
- 방대한 학습 데이터를 미리 학습해놓은 모델
- BiMM(MLM, NSP) 방식을 사용해 단어, 문장, 위치 임베딩을 진행 후 이를 합쳐 모델을 학습
- NLU task에서 기존 Word2Vec, GloVe 등의 방식보다 성능이 대폭 개선
- 단점 : 일반 NLP 모델에서는 잘 작동하지만 특정 분야(과학, 금융 등)의 언어모델에서는 성능이 떨어지는데, 각 분야마다 사용 언어가 다르고, 언어 특성이 다르기 때문, 특정 분야의 BERT 성능 개선을 위해서는 그 분야의 언어 데이터를 수집하고 추가 학습이 필요함
* MLM : Masked Language Model, 입력 문장에서 임의로 토큰을 버리고(Mask), 그 토큰을 맞추는 방식으로 학습을 진행
* NSP : Next Sentence Prediction, 두 문장을 주고 순서를 예측하는 방식으로, 문장 간 관련성을 고려하며 학습을 진행
Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately
- TensorFlow 기반 오픈소스 모델
- MLM 방식의 단점 (전체 토큰 중 15%만 학습하므로 학습 시 많은 비용이 듬)을 해결하기 위해 RTD(Replaced Token Detection)이란 새로운 방식을 사용함
- RTD는 generator를 이용, 실제 입력의 일부 토큰을 진짜와 비슷한 가짜 토큰으로 바꾸고, 각 토큰이 실제 입력에 있는 진짜 토큰인지 가짜 토큰인지 이진 분류하는 방식
- 이는 GAN과 비슷한 구조이지만 GAN은 아님
- 상대적으로 적은 리소스를 사용해 BERT보다 효율적으로 학습을 진행
- 정리하자면, BERT보다 가성비가 좋은 모델인데 성능이 오히려 좋음
XLNet
- GPT로 대표되는 auto-regressive(AR) 모델과 BERT로 대표되는 auto-encoder(AE)모델의 장점을 합침
- 이를 Permutation Language Modeling이라 하며, 순서를 섞어서 예측
- MLM을 이용하지 않아 pre-training과 fine-tuning사이의 불일치가 없음
- BERT보다 좋은 representation을 학습하면서 GPT처럼 autoregressive한 특성을 가지므로 generation task에서 좋은 성능을 기대
* AutoRegressive
- 시퀀스가 주어졌을때 다음 토큰에 대한 분포를 찾아내는 방식
- Forward와 Backward가 있는데 단방향만 가능함
- Text Generation과 잘맞는다.(시퀀스를 보고 다음 토큰을 예측)
* AutoEncoding
- 전체 중 일부를 masking한 뒤 해당 토큰을 맞춘다.
- 전체를 보고 맞추기 때문에 문맥 파악, 주제 파악 등에 좋다.
- masking 토큰들이 독립적이라고 가정한다는 단점이 있다.
- masking을 하므로 generalized model에서는 쓰면 안된다.
- real world에는 mask라는 토큰이 없고, long-term에서 성능이 좋지 않다.
AR의 문제점 | 단일 방향 정보만 이용하여 학습 |
AE의 문제점 | masking token이 독립적으로 예측하기 때문에 토큰 사이의 의존도는 학습할 수 없음 Finetuning(BERT를 문제에 필요한 데이터로 재학습)과정에서 masking token이 등장하지 않으므로 pretraining과 findtuning사이에 불일치가 일어남 |
RoBERTa - A Robustly Optimized BERT Pretraining Approach
- RoBERTa는 BERT의 개선 학습 기법
- BERT가 상당히 undertrained 된 것을 발견함
- BERT에 여러가지 tuning을 진행
가. Training the model longer with bigger batch, over more data
나. NSP loss 제거
다. Longer sequence를 넣어줌
라. Dynamic Masking 적용
- 기존 BERT나 XLNet 보다 우수한 성능을 보임
- 학습 모델 설계의 중요성이 대두됨
- 정리하면, BERT도 설계 잘하면 성능이 좋다는 것을 입증
T5 - Text-To-Text Transfer Transformer
- T5에서는 클래스 레이블이나 입력 범위만 출력할 수 있는 BERT 스타일 모델과 달리 입력과 출력이 항상 텍스트 문자열인 통합된 텍스트-텍스트 형식으로 모든 NLP 작업을 재구성할 것을 제안
- T5에 적용된 방법론
Model Architecture | Encoder , Decoder only 모델 보다 Basic transformer 구조가 높은 성능을 보임 |
Pretraining Objectives | Pretraining에서 Noising 된 input을 Denoising하며 단어를 예측하는 방식이 가장 효율적인 방법임 |
Unlabeled datasets | Domain specific data는 task에 도움이 되지만 데이터의 크기가 작은경우 overfitting을 야기함 |
Training strategies | multitask learning이 unsupervised pre-training과 비슷한 성능 보임 학습시 task별 적절한 proportion이 필요함 |
Scaling | 모델 크기를 늘리거나 ,앙상블을 시도하며 실험 진행. 작은모델을 큰 데이터로 학습하는게 효과적이라는것 발견함 |
Pushing the limits | 110억개 파라미터를 가지는 모델을 훈련하여 SOTA 달성함 1 trillon 개가 넘는 token에 대해 훈련 진행함 |
- T5는 파라미터수가 BERT의 2배이므로 높은 수준의 자원이 필요
참고:
https://ai.googleblog.com/2020/02/exploring-transfer-learning-with-t5.html
Exploring Transfer Learning with T5: the Text-To-Text Transfer Transformer
Posted by Adam Roberts, Staff Software Engineer and Colin Raffel, Senior Research Scientist, Google Research Over the past few years, tr...
ai.googleblog.com
https://lsjsj92.tistory.com/629
자연어처리(nlp) ELECTRA 논문 리뷰 - Pre-training Text Encoders as Discriminators Rather than Generators
포스팅 개요 이번 포스팅은 자연어처리(nlp) 논문 중 ELECTRA : Pre-training Text Encoders as Discriminators Rather Than Generators 라는 논문을 리뷰하는 포스팅입니다. 본 논문은 ELECTRA 라고 많이 알려진..
lsjsj92.tistory.com
https://blog.pingpong.us/xlnet-review/
꼼꼼하고 이해하기 쉬운 XLNet 논문 리뷰
Review of XLNet: Generalized Autoregressive Pretraining for Language Understanding
blog.pingpong.us
http://dsba.korea.ac.kr/seminar/?mod=document&uid=247
[Paper Review] Transformer to T5 (XLNet, RoBERTa, MASS, BART, MT-DNN,T5)
1. Topic - Transformer 기반의 언어모델들에대한 정리 및 비교 (2018~2019년 발표된 논문) 2. Overview Natural Language Process (NLP)는 transformer의 등장으로 엄청난 발전을 이루었다. 특히 2018년에 발표된 BERT와
dsba.korea.ac.kr
'AI > ETC' 카테고리의 다른 글
윈도우 cmd에서 nvidia-smi 실시간 모니터링 (0) | 2022.04.29 |
---|---|
DOM (0) | 2021.12.12 |