inblog logo
|
kjyong

    Reinforcement Learning from Human Feedback 1,2장

    바세린용자 (yongja)'s avatar
    바세린용자 (yongja)
    Jun 27, 2026
    Reinforcement Learning from Human Feedback 1,2장
    Contents
    IntroductionA Tiny History of RLHF
     

    Introduction

    • classification 같은 건 라벨이 명시적이라 평가가 쉽다
    • 하지만 llm은 사람의 선호라는 약간 모호함이 있어서, 이걸로 모델을 optimizing 할 수 있을까?에서 시작된 task
    • post training 단계
      • SFT(Supervised/Instruction Fine-tuning)
        • 형식(format)과 instruction-following 학습, next token prediction loss 사용
        • PreFT (Preference Fine-tuning) → RLHF
          • 사람 선호에 맞춰 정렬. 미묘한 스타일 학습
          • RLHF 3단계
            • notion image
        • RLVR (RL with Verifiable Rewards)
          • 가장 최신 기법. 수학, 코딩 등 정답이 있는 분야에 대한 학습.
    • RLHF가 무엇을 해주는가?
      • SFT만 끝난 상태에서는, 예를 들어 llm에게 대통령에 대해 물어보면 위키처럼 잡다한 지식만을 말함. 여기에 사람 선호도를 반영해줘야 실제 질-답 같은 느낌이 학습 됨
        • base model은 next-token prediction 기계일 뿐이다.
        • notion image
          notion image
      • 스타일이란?
        • 말투, 톤: 무뚝뚝하게 vs 따뜻하게
        • 텍스트 스타일: 줄글 vs 볼드,마크다운 등
        • “질-답을 신뢰감 있고 따뜻하게”
      • 단순 스타일 이상으로, rlhf를 해야 도메인 일반화가 잘 됨
        • contrast loss를 써서 긍정/부정 신호 모두 반영해줌
      • 한계
        • 좋은 sft 모델이 선행되어야 함
        • best practice 정립되지 않음
        • 선호도는 진짜 목표가 아닌 대리 지표로, regularization을 해야 함
    • Elicitation Theory
      • post-training은 새로운 능력을 주입하는게 아니라, 원래 base model에 있던 잠재 능력을 증폭시키는 것
    • VS Superficial Alignment Hypothesis
      • 모델의 지식은 거의 다 pretraining에서 학습되고, rlhf는 스타일만 변형할 뿐이다
      • 저자는 Elicitation Theory주장
     

    A Tiny History of RLHF

    notion image
    • 초기 연구들
      • Christiano et al. 2017
        • 아타리 게임에서 에이전트의 trajectory 쌍 중 어느 쪽이 나은지 사람이 고르게 해 RLHF 적용.
        • 사람이 trajectory를 비교하는 것이, 어떤 도메인에선 환경과 직접 상호작용하는 것보다 더 효과적일 수 있음 (= 명시적 reward 설계 없이 비교만으로 학습)
          • notion image
          • 사람의피드백을 “비동기적”으로 학습시킴
    Share article
    Contents
    IntroductionA Tiny History of RLHF

    kjyong

    RSS·Powered by Inblog