본문 바로가기

AI/AI model

(4)
일렉트라(electra) 모델 사전학습 feat. RTX 3060 12G 일렉트라 모델 사전학습 feat. RTX 3060 12G 본 글은 일렉트라 모델 사전학습 테스트 과정과, 일반 RTX GPU를 사전학습에 활용할 수 있을까에 대한 테스트 및 결과를 기록하기 위한 글입니다. 목적 - 일렉트라 모델의 파이프라인 테스트 및 요약 - RTX 라인 단일 GPU 환경에서의 사전학습 효용성 평가 일렉트라 사전학습 파이프라인 1. 말뭉치 수집 - 일렉트라 모델 사전학습을 위한 말뭉치(코퍼스)를 수집하는 단계 - 주로 데이터를 수집한 후 파싱하는 과정을 거친다. 사전학습에는 한 줄씩 파싱된 텍스트 파일(utf-8)이 필요하므로 dump 형식의 데이터나, json 데이터를 텍스트 파일로 변환(파싱)하는 과정이 필요하다. - 수집한 말뭉치는 wiki-한국어 dump 와 AI-Hub의 웹데이..
RTX 30XX 번대 GPU에서 구글 공식 Electra 레퍼런스 구동 윈도우 11(10) 환경에서 구글 공식 Electra 레퍼런스로 사전학습 시도시, TensorFlow 1.15 버전은 RTX 30XX번대 GPU 환경일 경우 메모리 이슈가 발생하여 사전학습이 제대로 진행되지 않음. 해결 방법 1. 공식 레퍼런스는 TensorFlow 1.15 버전 으로 작성되어 있는데 1.15 버전을 TensorFlow 2.X 버전으로 마이그레이션 2. wsl Ubuntu 환경에서 TensorFlow 1.15 버전 세팅 해결 1. TensorFlow 2.X 버전 마이그레이션 가. 텐서플로우 2 버전에서 제공하는 자동변환 스크립트를 활용해 코드 변환 나. contrib 모듈의 경우, 텐서플로우 2에서는 없어진 모듈이므로, 자동변환 스크립트를 사용한 후 tf.keras 모듈이나 tf-slim..
Electra Electra - Efficiently Learning an Encoder that Classifies Token Replacements Accurately pre-trained model 을 학습시키기 위한 pre-training methods는 크게 두가지 범주로 나눌 수 있다. LM MLM - 입력 텍스트를 단방향으로 처리하여 다음 단어를 예측 - 다음 단어를 예측하는 태스크에 강함 - 마스크된 언어모델로 텍스트의 중간 중간을 랜덤하게 감추고, 예측을 수행 - 단방향이 아니기 때문에 토큰의 왼쪽과 오른쪽 모두에서 예측이 가능하다는 장점이 있음 - 입력 텍스트의 중간중간 토큰을 마스크 처리하기 때문에 각 문장에서 학습하는 양이 줄어드는 단점이 생김 GPT BERT, RoBERTa Electra는 대체..
transfer learning transfer learning - 특정 태스크를 학습한 모델을 다른 태스크 수행에 재사용 하는 기법 - 워3를 처음 해도 스타를 해봤다면 금방 배움 언어 모델 language model - 다음 단어 예측으로 업스트림 태스크를 수행한 모델 - GPT가 대표적 마스크 언어 모델 masked language model - 빈칸 채우기로 업스트림 태스크를 수행한 모델 - Bert계열 모델이 대표적 자기지도학습 self-supervised learning - 업스트림 된 모델을 바탕으로 트랜스퍼 러닝 하는 학습방법 파인튜닝 fine-tuning - 프리트레인을 마친 모델을 다운스트림 태스크에 맞게 업데이트 하는 기법 중 하나 대표적 다운스트림 태스크 학습 기법 파인튜닝(find-tuning) 다운스트림 태스크..

반응형