Reinforcement Learning from Human Feedback 1,2장
Jun 27, 2026

Introduction
- classification 같은 건 라벨이 명시적이라 평가가 쉽다
- 하지만 llm은 사람의 선호라는 약간 모호함이 있어서, 이걸로 모델을 optimizing 할 수 있을까?에서 시작된 task
- post training 단계
- SFT(Supervised/Instruction Fine-tuning)
- 형식(format)과 instruction-following 학습, next token prediction loss 사용
- PreFT (Preference Fine-tuning) → RLHF
- 사람 선호에 맞춰 정렬. 미묘한 스타일 학습
- RLHF 3단계
- RLVR (RL with Verifiable Rewards)
- 가장 최신 기법. 수학, 코딩 등 정답이 있는 분야에 대한 학습.

- RLHF가 무엇을 해주는가?
- SFT만 끝난 상태에서는, 예를 들어 llm에게 대통령에 대해 물어보면 위키처럼 잡다한 지식만을 말함. 여기에 사람 선호도를 반영해줘야 실제 질-답 같은 느낌이 학습 됨
- base model은 next-token prediction 기계일 뿐이다.
- 스타일이란?
- 말투, 톤: 무뚝뚝하게 vs 따뜻하게
- 텍스트 스타일: 줄글 vs 볼드,마크다운 등
- “질-답을 신뢰감 있고 따뜻하게”
- 단순 스타일 이상으로, rlhf를 해야 도메인 일반화가 잘 됨
- contrast loss를 써서 긍정/부정 신호 모두 반영해줌
- 한계
- 좋은 sft 모델이 선행되어야 함
- best practice 정립되지 않음
- 선호도는 진짜 목표가 아닌 대리 지표로, regularization을 해야 함


- Elicitation Theory
- post-training은 새로운 능력을 주입하는게 아니라, 원래 base model에 있던 잠재 능력을 증폭시키는 것
- VS Superficial Alignment Hypothesis
- 모델의 지식은 거의 다 pretraining에서 학습되고, rlhf는 스타일만 변형할 뿐이다
- 저자는 Elicitation Theory주장
A Tiny History of RLHF

- 초기 연구들
- Christiano et al. 2017
- 아타리 게임에서 에이전트의 trajectory 쌍 중 어느 쪽이 나은지 사람이 고르게 해 RLHF 적용.
- 사람이 trajectory를 비교하는 것이, 어떤 도메인에선 환경과 직접 상호작용하는 것보다 더 효과적일 수 있음 (= 명시적 reward 설계 없이 비교만으로 학습)
- 사람의피드백을 “비동기적”으로 학습시킴

Share article