인간 피드백 기반 강화학습

언어 모델 중심의 RLHF 및 사후 학습 입문서

Nathan Lambert (번역 by 9bow)

Abstract

인간 피드백 기반 강화학습(RLHF)은 최신 머신러닝 시스템을 대규모로 구축하기 위한 핵심 도구가 되었습니다. 이 분야는 RLHF의 핵심 방법론을 중심으로 성장해 오늘날의 더 넓은 사후 학습(post-training) 기법 모음으로 확장되었습니다. 이 책은 정량적 배경 지식을 갖춘 독자를 위해, 정석적인 RLHF 레시피를 중심으로 모델 사후 학습의 핵심 방법을 종합적으로 소개합니다. 먼저 RLHF가 무엇을 하는지, 왜 만들어졌는지, 짧은 역사 속 주요 기술적 이정표와 책을 이해하는 데 필요한 강화학습 배경을 다룹니다. 책의 핵심부는 RLHF의 각 최적화 단계를 설명하며, 지시 미세조정에서 시작해 보상 모델 학습, 거부 샘플링, 강화학습, 온-정책 증류, 직접 정렬 알고리즘까지 다룹니다. 또한 최근 문헌뿐 아니라 경제학, 철학, 최적 제어 등 여러 과학 분야의 수렴이라는 관점에서 RLHF의 기원도 논의합니다. 마지막으로 합성 데이터, 도구 사용, 캐릭터 학습, 평가에서의 미개척 또는 새롭게 떠오르는 연구 질문과 분야의 열린 문제를 다룹니다. 이 책은 코드베이스, 사후 학습 단계별 모델 완성을 비교하는 라이브러리, 교육용 강좌 등 다양한 보조 자료와 함께 공개되어, 언어 모델 사후 학습의 기초 개념을 한곳에서 배울 수 있도록 구성되었습니다.

강좌 소개

RLHF Book 개요 및 소개 영상

보기

업데이트 내역

마지막 빌드: 16 May 2026

2026년 4월: 인쇄를 위한 최종 편집 — Manning 판본 개선 사항 반영, 방정식 및 용어 명확화, 전 챕터 오탈자/문법 수정, 제품 챕터 확장. 책이 인쇄 단계에 들어가 향후 내용 변경이 줄어들 예정입니다.

2026년 3월: 강좌 페이지 출시(강의 영상 포함); PDF 구문 강조; 제품 챕터 확장(17장).

2026년 2월: v2 콘텐츠: 직접 정렬 챕터, 새 다이어그램, RL 치트시트, 부록, 검색 바, Kindle 지원, 편집 수정.

2026년 1월: Manning 도서 구조에 맞춘 챕터 대폭 재편성; 코드 예제 라이브러리; 이전 URL 리다이렉트.

2025년 12월: 편집자 피드백을 반영한 v2 작업 중입니다. 업데이트를 확인하세요!

2025년 11월: Manning 사전 주문 가능.

2025년 7월: 도구 사용 챕터 추가 (참고: PR)

2025년 6월: v1.1. RLVR/추론 개선 다수 (참고: PR)

2025년 4월: v0 완성; 과최적화, 미해결 문제 등; 평가 섹션; RLHF × 제품 연구, 웹사이트 개선, 추론 섹션.

2025년 3월: 정책 그래디언트 섹션 개선; DPO 완성, 대규모 정리; DPO 챕터 시작, 소개 개선.

2025년 2월: SEO 개선, IFT 챕터 추가; RM 내용 추가, 선호도 데이터, 정책 그래디언트 완성; PPO 및 GAE; 변경 이력 추가, 소개 개편.

감사의 말

이 프로젝트에 직접 도움을 주신 다음 분들께 감사드립니다: Costa Huang, Ross Taylor, Hamish Ivison, John Schulman, Valentina Pyatkin, Daniel Han, Shane Gu, Joanne Jang, LJ Miranda, Sharan Maiya, Andrew Carr, Cameron R. Wolfe, 그리고 저의 RL 분야 동료들 (물론 Claude도 포함).

또한 이 프로젝트 개선에 도움을 주신 GitHub 기여자 여러분께도 감사드립니다.

인용

이 자료가 연구에 유용했다면 인용해 주세요!

@book{rlhf2026lambert,
  author = {Nathan Lambert},
  title = {Reinforcement Learning from Human Feedback},
  year = {2026},
  publisher = {Online},
  url = {https://rlhfbook.com}
}