Reinforcement Learning from Human Feedback 1,2장

바세린용자 (yongja)

Jun 27, 2026

Reinforcement Learning from Human Feedback 1,2장

Contents

Introduction A Tiny History of RLHF

Introduction

classification 같은 건 라벨이 명시적이라 평가가 쉽다

하지만 llm은 사람의 선호라는 약간 모호함이 있어서, 이걸로 모델을 optimizing 할 수 있을까?에서 시작된 task

post training 단계

SFT(Supervised/Instruction Fine-tuning)

형식(format)과 instruction-following 학습, next token prediction loss 사용
PreFT (Preference Fine-tuning) → RLHF

사람 선호에 맞춰 정렬. 미묘한 스타일 학습
RLHF 3단계

notion image

RLVR (RL with Verifiable Rewards)

가장 최신 기법. 수학, 코딩 등 정답이 있는 분야에 대한 학습.

RLHF가 무엇을 해주는가?

SFT만 끝난 상태에서는, 예를 들어 llm에게 대통령에 대해 물어보면 위키처럼 잡다한 지식만을 말함. 여기에 사람 선호도를 반영해줘야 실제 질-답 같은 느낌이 학습 됨

base model은 next-token prediction 기계일 뿐이다.

notion image

notion image

스타일이란?

말투, 톤: 무뚝뚝하게 vs 따뜻하게
텍스트 스타일: 줄글 vs 볼드,마크다운 등
“질-답을 신뢰감 있고 따뜻하게”

단순 스타일 이상으로, rlhf를 해야 도메인 일반화가 잘 됨

contrast loss를 써서 긍정/부정 신호 모두 반영해줌

한계

좋은 sft 모델이 선행되어야 함
best practice 정립되지 않음
선호도는 진짜 목표가 아닌 대리 지표로, regularization을 해야 함

Elicitation Theory

post-training은 새로운 능력을 주입하는게 아니라, 원래 base model에 있던 잠재 능력을 증폭시키는 것

VS Superficial Alignment Hypothesis

모델의 지식은 거의 다 pretraining에서 학습되고, rlhf는 스타일만 변형할 뿐이다
저자는 Elicitation Theory주장

A Tiny History of RLHF

notion image

초기 연구들

Christiano et al. 2017

아타리 게임에서 에이전트의 trajectory 쌍 중 어느 쪽이 나은지 사람이 고르게 해 RLHF 적용.
사람이 trajectory를 비교하는 것이, 어떤 도메인에선 환경과 직접 상호작용하는 것보다 더 효과적일 수 있음 (= 명시적 reward 설계 없이 비교만으로 학습)

notion image

사람의피드백을 “비동기적”으로 학습시킴

Share article

Contents

Introduction A Tiny History of RLHF