10초 만에 알아보는 커팅엣지 ML - ChatGPT와 RLHF

✔️ 다른 분들보다 ChatGPT를 늦게 접했다. 며칠 전 '그분'과 대화해보고 든 생각은... 나는 최근까지 인공지능이 원자력이나 인터넷 같은 과학적, 기술적 성취보다는 파급력이 못하다고 생각했는데 이제 그게 아닐 수도 있겠다. 우리가 인공 범용 지능(AGI)의 원형을 목격한 첫 번째 세대일 수도 있겠다, 그런 생각들. ✔️ OpenAI는 언어 모델 GPT 3.5를 사람 피드백 기반의 강화 학습(RLHF)으로 파인 튜닝해서 ChatGPT를 만들어냈다. 이러한 방법론은 2020년 '사람의 피드백으로 요약하는 법 학습하기'(https://openai.com/blog/learning-to-summarize-with-human-feedback/)부터 시도해오던 것. ✔️ OpenAI 블로그에는 RLHF 관련하여 짧게 적혀있는데 HuggingFace에서 시의적절하게, 그리고 상세히 설명해주었다.(https://huggingface.co/blog/rlhf) ✔️ 나도 잘 모르지만 무식한 자가 용감하게 해당 프로세스를 요약, 정리해보면, - 대형 언어 모델 A를 학습한다. - 샘플링된 프롬프트에 대해 A 모델이 텍스트를 생성하면 해당 텍스트에 대해 사람이 점수(선호도)를 매긴다. - 이렇게 수집한 피드백 데이터로 프롬프트에 대해 선호도를 추론하는 보상 모델을 학습한다. - A 모델의 사본 B를 만든다. 주어진 프롬프트에 대해 B가 텍스트를 생성하면 보상 모델이 보상 점수를 준다. 그 보상 값으로 정책 모델 B의 가중치를 업데이트한다.(=PPO) 다만, 이때 A와 B 모델이 너무 달라지지 않게 거리에 페널티를 준다. 모델 학습 과정의 반복. ✔️ 이 과정을 통해 OpenAI는 데이터 날것의 편향과 유해성이 제거된 언어 모델을 얻을 수 있었고 대중 상대로 챗봇을 공개할 수 있었다. ChatGPT가 진실이 아닌 얘기를 하거나 동어 반복하며 말을 장황하게 하는 경향이 있는데, 왜 강화 학습 과정에서 이를 제거하지 않았는지(혹은 생겨났는지) OpeanAI 블로그에 나와있으니 재밌게 읽어보시길! 🙌

ChatGPT: Optimizing Language Models for Dialogue

Openai

ChatGPT: Optimizing Language Models for Dialogue

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 12월 14일 오후 4:00

 • 

저장 19조회 3,382

댓글 0