많은 인기를 얻고 있는 ChatGPT의 경우 InstructGPT 와 유사한 방식으로 만들어졌다고 알려져 있습니다. InstructGPT는 실제 사람의 feedback을 활용해서 개선하는, human-in-the-loop 방식을 기존의 GPT에 대해 적용하여 개선을 했다고 알려져 있습니다.
이걸 RLHF (Reinforcement Learning from Human Feedback) 라고 부르는데요:
- base model 을 먼저 만들고
- 사람의 feedback 데이터를 사용해서 reward model 을 학습하고,
- 이를 활용해 RL 알고리즘으로 fine tuning 하는 방식
을 일반적으로 사용한다고 합니다. 그에 관한 잘 설명된 글이 있어서 공유합니다. 물론 high-level view이기 때문에 대략 이런 방식이구나 정도만 이해할 수 있고, 자세한 부분은 링크된 paper들을 읽어봐야 제대로 이해할 수 있을 거 같긴 합니다만..
그래도 이러한 방식 또한 Large-scale model 의 흐름 중 하나가 될 것이라고 생각이 되네요.