인간 피드백 기반 강화학습

언어 모델 중심의 RLHF 및 사후 학습 입문서

Nathan Lambert (번역 by 9bow)

Abstract

인간 피드백 기반 강화학습(RLHF)은 최신 머신러닝 시스템을 배포하기 위한 중요한 기술적·서사적 도구로 자리 잡았습니다. 이 책에서는 정량적 배경 지식을 갖춘 독자를 대상으로 핵심 방법론을 친절하게 소개합니다. RLHF의 기원부터 시작하여 경제학, 철학, 최적 제어 등 다양한 분야가 어떻게 수렴했는지 살펴봅니다. 이어서 정의, 문제 공식화, 데이터 수집, 문헌에서 자주 쓰이는 수학적 표현을 소개합니다. 책의 핵심은 RLHF의 각 최적화 단계로, 지시 튜닝 시작부터 보상 모델 학습, 그리고 거부 샘플링·강화학습·직접 정렬 알고리즘까지 다룹니다. 마지막으로 합성 데이터와 평가 분야의 미개척 연구 주제와 분야의 열린 질문들을 다룹니다.

강좌 소개

RLHF Book 개요 및 소개 영상

보기

업데이트 내역

마지막 빌드: 02 May 2026

2026년 4월: 인쇄를 위한 최종 편집 — Manning 판본 개선 사항 반영, 방정식 및 용어 명확화, 전 챕터 오탈자/문법 수정, 제품 챕터 확장. 책이 인쇄 단계에 들어가 향후 내용 변경이 줄어들 예정입니다.

2026년 3월: 강좌 페이지 출시(강의 영상 포함); PDF 구문 강조; 제품 챕터 확장(17장).

2026년 2월: v2 콘텐츠: 직접 정렬 챕터, 새 다이어그램, RL 치트시트, 부록, 검색 바, Kindle 지원, 편집 수정.

2026년 1월: Manning 도서 구조에 맞춘 챕터 대폭 재편성; 코드 예제 라이브러리; 이전 URL 리다이렉트.

2025년 12월: 편집자 피드백을 반영한 v2 작업 중! 업데이트를 확인하세요!

2025년 11월: Manning 사전 주문 가능.

2025년 7월: 도구 사용 챕터 추가 (참고: PR)

2025년 6월: v1.1. RLVR/추론 개선 다수 (참고: PR)

2025년 4월: v0 완성; 과최적화, 미해결 문제 등; 평가 섹션; RLHF × 제품 연구, 웹사이트 개선, 추론 섹션.

2025년 3월: 정책 경사 섹션 개선; DPO 완성, 대규모 정리; DPO 챕터 시작, 소개 개선.

2025년 2월: SEO 개선, IFT 챕터 추가; RM 내용 추가, 선호도 데이터, 정책 경사 완성; PPO 및 GAE; 변경 이력 추가, 소개 개편.

감사의 말

이 프로젝트에 직접 도움을 주신 다음 분들께 감사드립니다: Costa Huang, Ross Taylor, Hamish Ivison, John Schulman, Valentina Pyatkin, Daniel Han, Shane Gu, Joanne Jang, LJ Miranda, Sharan Maiya, Andrew Carr, Cameron R. Wolfe, 그리고 저의 RL 분야 동료들 (물론 Claude도 포함).

또한 이 프로젝트 개선에 도움을 주신 GitHub 기여자 여러분께도 감사드립니다.

인용

이 자료가 연구에 유용했다면 인용해 주세요!

@book{rlhf2026lambert,
  author = {Nathan Lambert},
  title = {Reinforcement Learning from Human Feedback},
  year = {2026},
  publisher = {Online},
  url = {https://rlhfbook.com}
}