[인간의 피드백을 통해 요약하는 법 학습하기 📄]
9월 초 OpenAI에서 'Learning to summarize from human feedback'라는 제목의 논문을 발표했습니다. 처음 봤을 때 "녀석들, GPT-3 써서 텍스트 요약 좀 해본 건가. 후후, 그 정도로 되나. 삶, 우주, 그리고 모든 것에 대한 질문의 해답 정도는 발표해야지. 😔"라고 생각했는데... D'oh! 그들의 단단한 철학과 내공을 느낄 수 있는 내용이었습니다, 보시죠.
OpenAI는 인간 피드백을 직접 반영하는 식의 강화 학습을 적용하여 요약 모델을 훈련시켰습니다. Reddit TL; DR 데이터셋을 이용했는데요. 파라미터 수가 10배나 많은 지도 학습 모델보다 더 높은 성능을 보여줬습니다. 뿐만 아니라 CNN / Daily Mail 뉴스 기사 데이터셋에 기존 학습된 모델을 그냥 갖다 써도, 즉 추가 미세 조정 작업 없이도 굉장히 좋은 요약을 생성해냈습니다.
모델링에 대해 좀 더 자세히 살펴보겠습니다. (1) GPT 스타일 트랜스포머의 사전 훈련된 모델로 시작하여 TL; DR 데이터셋을 예측하게끔 미세 조정을 수행합니다. (2) 그런 다음 정책이 생성한 요약에 대해 인간 피드백을 수집합니다. 즉 어떤 게시물에 대해 생성한 두 요약 중 무엇이 나은지 선택하는 작업입니다. (3) 이 상대적인 피드백을 이용하여 '게시물, 요약' 쌍에 대해 수치 값 r을 주는 보상 모델을 학습합니다. (4) 마지막으로 강화 학습, 정확히는 PPO를 사용하여 보상에 대한 정책을 최적화합니다. 이때 정책이 지도 학습 초기 버전에서 너무 멀어지지 않게끔 KL 페널티를 줍니다. 적고 보니 별거 아니군요. 하하하. 나는야 방구석 벤지오. 😔
재밌는 부분은 양질의 인간 피드백을 얻기 위해 굉장히 노력했다는 점입니다. 강화 학습이다 보니 모델이 평가자의 성향을 그대로 쫓아갑니다. (길이가 긴 요약문을 선호한다든가) 그래서 요약에 대한 평가자의 선택 기준을 면밀히 모니터링하면서 높은 임금으로 고용했습니다. 나는 일당 사 딸라면 되는데... 😔 그리고 보상 모델은 인간 선호에 대한 프락시일 뿐. 그것을 최적화했더니 과적합으로 요약 품질이 오히려 떨어졌다는 사실도 특기할 만합니다.
OpenAI는 다음과 같이 얘기합니다. 이봐, 다음 단어 예측해서 만든 모델로 얻을 수 있는 게 뭐야? 그냥 문법의 통계적 패턴을 학습해서 마치 사람인 척 문장 만드는 게 전부 아니야? (야, 근데 그건 팀 키...ㄹ) 그게 아니라 모델은 'Goodness', 정말 원하는 걸 줘야지. 연구자도 아닌 최종 사용자가 정말 원하는 것 말이야. 우리는 인간 피드백을 직접 반영한 강화 학습으로 그 문제를 풀어낼 거야. (크... 널리 인간을 이롭게 하는 홍익 AI라니. 😔)