ChatGPT만드는 데 활용한 RLHF

많은 인기를 얻고 있는 ChatGPT의 경우 InstructGPT 와 유사한 방식으로 만들어졌다고 알려져 있습니다. InstructGPT는 실제 사람의 feedback을 활용해서 개선하는, human-in-the-loop 방식을 기존의 GPT에 대해 적용하여 개선을 했다고 알려져 있습니다. 이걸 RLHF (Reinforcement Learning from Human Feedback) 라고 부르는데요: - base model 을 먼저 만들고 - 사람의 feedback 데이터를 사용해서 reward model 을 학습하고, - 이를 활용해 RL 알고리즘으로 fine tuning 하는 방식 을 일반적으로 사용한다고 합니다. 그에 관한 잘 설명된 글이 있어서 공유합니다. 물론 high-level view이기 때문에 대략 이런 방식이구나 정도만 이해할 수 있고, 자세한 부분은 링크된 paper들을 읽어봐야 제대로 이해할 수 있을 거 같긴 합니다만.. 그래도 이러한 방식 또한 Large-scale model 의 흐름 중 하나가 될 것이라고 생각이 되네요.

Illustrating Reinforcement Learning from Human Feedback (RLHF)

Huggingface

Illustrating Reinforcement Learning from Human Feedback (RLHF)

다음 내용이 궁금하다면?

지금 간편 가입하고 다음 내용을 확인해 보세요!

또는

이미 회원이신가요?

2022년 12월 28일 오전 7:19

 • 

저장 12조회 4,562

댓글 0