BERT, Electra, XLNet, RoBERTa, T5
BERT - Bidirectional Encoder Representations from Transformers - 방대한 학습 데이터를 미리 학습해놓은 모델 - BiMM(MLM, NSP) 방식을 사용해 단어, 문장, 위치 임베딩을 진행 후 이를 합쳐 모델을 학습 - NLU task에서 기존 Word2Vec, GloVe 등의 방식보다 성능이 대폭 개선 - 단점 : 일반 NLP 모델에서는 잘 작동하지만 특정 분야(과학, 금융 등)의 언어모델에서는 성능이 떨어지는데, 각 분야마다 사용 언어가 다르고, 언어 특성이 다르기 때문, 특정 분야의 BERT 성능 개선을 위해서는 그 분야의 언어 데이터를 수집하고 추가 학습이 필요함 * MLM : Masked Language Model, 입력 문장에서 임의로 토큰을 버..