📌 LLM 모델 발전 상황
GPT - 3 (Generative Pre-trained Transformer)
Open AI 모델
- General-purpose algorithm (일반 인공지능)
▶ 요약, 번역 등 정해진 Task만 수행하는 Model이 아닌 언어 이해 & 생성 관련 모든 질문에 응답
- 1750억 Parameter로 이루어진 초거대 언어 모델
- 언어 이해는 잘 했으나 사용자의 지시를 잘 따르지 못 함
InstructGPT
언어 이해가 잘되는 GPT-3를 활용해서 사람의 지시를 유용하게 & 안전하게 응답 생성
RLHF (Reinforcement Learning from Human Feedback)
▶ 사람의 피드백으로 강화학습
➕ RLAIF 도 있음
사람의 지시 이행을 위해
1) 특정 질문에 대한 응답 Label로 감독학습 진행
2) 특정 수준의 응답 성능을 가질 경우, 하나의 질문에 여러 개 응답 생성 요구
3) 사람이 응답에 순위 선정하여 더 선호하는 응답 생성할 수 있게 학습
✅ STEP 1. Supervised fine-tuning (SFT)
- GPT-3가 지시에 응답할 수 있도록 사람을 통해 학습
- GPT-3에 사람이 지시한 내용 모아놓고 각각의 질문에 대한 응답을 사람이 작성 (정답 Set 수집)
- GPT-3 지도학습(감독학습)
✅ STEP 2. Reward model (RM) training
- 질문에 대한 응답 생성 가능
- 하나의 질문에 대해 다수의 응답 생성하게 한 후, Labeler(사람)가 응답 선호 랭킹 선정
- 랭킹 Label을 통해 Reward Model 학습
🔎 Reward Model
질문과 응답이 주어졌을 때, 그에 대한 Ranking Score를 예측하는 모델
▶ Ranking Score는 사람의 선호도에 따라 결정
✅ STEP 3. RL via PPO
- STEP 1을 통해 Fine-Tuning 된 InstructGPT가 새로운 질문에 대한 응답 생성
- 질문과 응답에 대해 STEP 2의 Reward Model이 Ranking Score 예측
- Score를 강화학습의 보상으로 활용하여 InstructGPT 재학습
InstructGPT : 질문이 State, 이에 대한 응답이 Action, 그에 대한 Reward를 최대화할 수 있게 응답 학습
🔎 PPO
강화학습 알고리즘 중 Open AI 사에서 만든 알고리즘
ChatGPT
- InstructGPT + Conversational UI (대화형 User Interface)
▶ 이전에 InstructGPT 사용을 위해서는 API Call 필요
▶ 대화형 UI를 사용해 접근성 향상
Iterative Deployment
지속적 개선이 이루어지고 있음
- ChatGPT, GPT4에 대한 Attack 수행과 개선의 반복
GPT-4
2가지 Milestone 강조 (Multimodal & Exams designed for human)
- Large Multimodal Model
▶ 텍스트 뿐만 아니라 이미지도 이해하여 Output 출력
▶ 음성 인식, 음성 합성, 텍스트 이해 기반 이미지 생성 서비스 등 Multimodality 증가 에상
- No technical detail
▶ 어떤 기술적 디테일도 공개 x
▶ 응답 생성 시, 앞의 대화에 대한 토큰을 고려하는 Context Length의 길이가 빠르게 증가
GPT-4 : Test on Benchmarks
- 사람을 위해 정의된 시험들에 대해 좋은 성적을 낼 수 있음 ▶ 문제은행 식 출제
- Multilingual - 영어 뿐만 아니라 다양한 언어 활용 가능
- 일반 사진 뿐만 아니라 Diagram 등도 인식 가능
Limitation
GPT-4 가 가진 한계
- Hallucination - 없는 사실을 만들어내는 경우가 있음, 추론 실수
- Prompt Engineering - 질문에 따라 응답의 퀄리티가 달라짐, 좋은 성능을 위한 좋은 prompt
- Various Biases - 사람을 통한 Label을 받았으므로 Bias 존재, label 이외 bias도 존재
- Lacks knowledge after September 2021 - 지식 업데이트가 느림
- Not learn from its experience - 사람과의 Interaction을 통해 배우지 않음 (개인정보 문제)
- Not taking care to double-check - 검증 과정을 거치지 않음
하지만 안전성과 신뢰성 측면에서 빠르게 개선되고 있음
Timeline of Large Language Models
Anthropic Claude
Google Bard
2023.05 공개
- 구글 LLM + UI
- ChatGPT와 같이 별도 동작하는 앱이 아닌 구글 검색과 연동된 방식
Google PaLM (Google Pathway LM)
- 구글 언어모델 중 가장 유명한 모델
- 5000억 Parameter까지 구동 가능
- 구글 클라우드 API 통해 사용 가능
Meta OPT & LLaMA
- Open Source 공개로 Userbase를 넓힘
- Open Pretrained Transformer (OPT)
- Large Language Model Meta AI - OPT 후속 언어모델
▶ Model 사이즈별 Instruction 학습 후, 공개
▶ 학계, 회사에서의 언어모델 연구 활성화
Self-Insturct Tuning on LLaMA
- LLaMA에 성능을 높이기 위해 Instruction 학습 Data 필요 (사람 지시-이행 data 쌍)
- data 쌍은 GPT에서 구함 (Prompt 제시 - 응답 쌍)
- 꽤 높은 성능 확보 가능
LMsys Vicuna
- 13Billion LLaMA Model에 ShareGPT.com의 GPT 응답 Data 쌍을 모아 학습
- 적은 비용으로 GPT 대비 꽤 괜찮은 성능
📌 결론
- Data 중심 인공지능
- GPT-3 에서 이어져오듯 Model Architecture는 Transformer Decoder 기반 모델을 크게 만드는 방향으로 진행
- 상용 LLM vs. Open Source LLM
- 기업 입장 - API 사용 vs. In-house LLM 제작
'WorkOut > LG Aimers' 카테고리의 다른 글
LG Aimers | Linear Regression (선형 회귀) (0) | 2024.07.25 |
---|---|
LG Aimers | Supervised Learning (지도학습) (11) | 2024.07.24 |
LG Aimers | Overfitting & Underfitting (머신러닝 과대적합 & 과소적합) (2) | 2024.07.23 |
LG Aimers | Machine Learning 개론 (9) | 2024.07.22 |
LG Aimers | Convex Optimization (볼록 최적화) (6) | 2024.07.22 |