본문 바로가기

Generative AI/News & Review

LLaMa 계열 오픈소스 LLM - (2023.04)

LLaMa

Large Language Model Meta AI

- Meta AI 에서 2023년 2월 24일 공개

- GPT3 기반으로 튜닝

- GPT3와 비교했을 때 모델의 크기가 반 이하

- 4개 모델 공개 (7B, 13B, 33B, 65B), 모델이 커질 수록 성능 향상

- ChatGPT, Claude, Bing Chat 의 부족한 부분을 개선할 목표로

  훨씬 저렴한 비용으로 모델을 학습할 수 있도록 하여 공개함

 

 


Stanford Alpaca

- Stanford에서 공개한 오픈소스 모델

- LLaMa 모델을 사용자의 명령어에 잘 답할 수 있도록 Instruction-following 데이터로 파인튜닝

- 학술적 연구목적으로만 사용 가능

- self-Instruct 연구를 참고해 Instruction-following 데이터 생성, self-Instruct의 핵심은 LLM(Large Language Model)으로 

  데이터를 생성해 그 데이터로 다시 LLM을 학습

- GPT-3.5(text-davinci-003) 모델을 사용해 데이터 생성

 

* 한국어 튜닝 모델(7B KoAlpaca 모델, 65B 모델)도 등장

 

 


 

VICUNA : An Open-Source Chatbot

- LLaMA를 ShareGPT에 공유된 7만개의 사용자 대화로 파인튜닝

- ChatGPT 및 구글 Bard 대비 90% 이상의 품질을 보여준다고 주장

- Alpaca 에 더해 최적화 비용 및 다단계 대화를 고려하고, Spot Instance로 비용 절감

 

* ShareGPT : ChatGPT의 결과 및 프롬프트를 서로 공유하는 크롬앱

* VICUNA 소개 및 데모페이지

 

 


GPT4ALL

- 모두를 위한 GPT, AI 민주화를 목표, 노트북에서 구동 가능한 GPT 지향

- GPT3.5-Turbo API 를 가지고 학습데이터(800K) 생성

- LLaMA 7B 모델 기반 파인튜닝

- 양자화 적용(4bit)

- LoRA 적용

- CPP 구현체 제공

 

* https://github.com/nomic-ai/gpt4all

 

GitHub - nomic-ai/gpt4all: gpt4all: an ecosystem of open-source chatbots trained on a massive collections of clean assistant dat

gpt4all: an ecosystem of open-source chatbots trained on a massive collections of clean assistant data including code, stories and dialogue - GitHub - nomic-ai/gpt4all: gpt4all: an ecosystem of ope...

github.com

 

 


기술 용어

C++ 최적화(llama.cpp)

- C,C++ 구현체로 4bit 양자와 지원

- CPU에서 실행가능하게 함

- 응답속도 개선

* https://github.com/ggerganov/llama.cpp

 

GitHub - ggerganov/llama.cpp: Port of Facebook's LLaMA model in C/C++

Port of Facebook's LLaMA model in C/C++. Contribute to ggerganov/llama.cpp development by creating an account on GitHub.

github.com

 

 

 

양자화(Quantization)

- 모델의 파라미터를 더 작은 비트수로 표현하는 것

- 모델 크기가 줄어들고, 메모리 및 연산 요구 사항 감소

- 실행 속도가 빨라지고 전력 소비 감소

 

* 양자화 기법을 적용하면, 정확도는 거의 같게 유지하면서, 모델 크기 및 메모리 사용량을 원본 모델의 4분의 1까지 감소시킬 수 있고,

  추론속도는 약 2~4배 향상 가능 

 

 

 

모델 Adapter(LoRA)

Low-rank adaptation

- 대형 언어모델을 특정한 도메인에 적용시키기 위한 효율적인 방법

- 모델의 파인튜닝 속도 향상

- LoRA는 모델의 모든 파라미터를 재학습 하는 것이 아닌, 사전 학습된 모델의 행렬 파라미터를 고정하고, 그것을

  Low-rank 행렬로 대체하여 파라미터의 수를 줄이고 학습 속도 및 성능을 개선

반응형

'Generative AI > News & Review' 카테고리의 다른 글

Poe(Platform for Open Exploration)  (0) 2023.03.20
Office copilot Demo  (0) 2023.03.17