RLHF(Christiano, Paul et al., 《Deep Reinforcement Learning from Human Preferences》, 2017.) 에서 단점을 극복하기 위해 DPO(Rafael Rafailov, Archit Sharma, Eric Mitchell, Stefano Ermon, Christopher D. Manning, Chelsea Finn, Direct Preference Optimization: Your Language Model is Secretly a Reward Model, 2023, arXiv) 라는 방법론이 나왔다.
아래 그림과같이 DPO에서는 RLHF의 Reward model + RL 단계를 RL 한 단계로 줄이는 방법이다.
DPO의 Loss 유도과정을 ChatGPT에 물어보니 설명을 잘 해주어, 기록해 보았다. ChatGPT 4.5 대화 기록
강화학습 관련하여 RLHF의 Loss에서 DPO의 Loss를 유도하는 과정에 대해서 설명 요청.
최적 정책 π*(y|x)
를 라그랑지 승수법으로 유도하면:
(∑_y π_θ(y|x)=1)
처리:DPO 논문에서는 보상모델을 제거하고 정책모델 자체를 직접 최적화하는 형태로 Loss를 제시:
위의 내용을 통해 RLHF에서 DPO Loss가 유도되는 전 과정을 설명 완료.
LEAVE A COMMENT
부연 설명: 라그랑지언 loss를 최적 정책으로 미분하면 0이 되는데 이것을 정리하면 최적 정책이 ref 정책에 대해 보상값이 높은 응답의 확률이 증가비율을 곱한 형태가 됨.