커리어리 친구들, AI프렌즈 고우영님의 한국어 ChatGPT-replica(RLHF) colab 실습 코드 및 한국어 데이터 공유합니다.
🌸 데이터: https://github.com/airobotlab/KoChatGPT
🌸 Colab 실습 코드: https://bit.ly/41EcPDC
🌸 Hands on 강의영상: https://www.youtube.com/live/Iq8erq62s8c?feature=share&t=9
ChatGPT는 공개 코드가 없는데요, 여러 구현된 오픈소스들은 RLHF의 3단계 중 1단계만(stanford_alpaca), 혹은 3단계만(huggingface TRL) 다룹니다.
그래서 모두 조합해서 3단계 모두 처음부터 끝까지 실습할 수 있게 코드를 구성한 ChatGPT-replica 코드 공유합니다. 한국어 ChatGPT를 만들기 위한 데이터(SFT/RewardModel/PPO 학습용)도 공유합니다.
Hands on 영상에선 ChatGPT 학습방법인 GPT fine-tuning, PPO, RLHF에 대해 소개하고 한국어 ChatGPT 데이터 생성 방법, 그리고 Colab 실습 방법을 안내합니다. 어떤 foundation 모델로도 쉽게 교체할 수 있게 KoGPT2 모델을 예시로 만들었습니다.
활용을 넘어서 직접 ChatGPT(한국어/전문분야)를 직접 만들어 보실 분들을 위해 공유합니다. 제 취미생활을 공유하는 거라 틀린 부분이 있어도 너그럽게 이해해 주세요^^
🧚♂️ 구현 모델은 ChatGPT-replica입니다. 실제 ChatGPT와 다를 수 있습니다. 다양한 오픈소스를 조합해서 만들었습니다.
🧚♂️ 실습을 위해 GPT3가 아닌 KoGPT2+RLHF로 구현합니다. 거대 언어모델로 개발 시 어려움이 있을 수 있습니다.
🧚♂️ 실습환경: Colab, 선수 지식: 파이썬
🧚♂️ Colab 접속 후 런타임->모두실행하면 3가지 step(SFT/RM/PPO)가 모두 돌아갑니다.
🧚♂️ 데이터는 OpenAI API로 자동생성 했습니다. 사람의 검수가 필요합니다.
🧚♂️ 빠른 실습을 위해 epoch과 batch를 최소로 했습니다. 실제 개발 시 늘리고 데이터도 충분히 학습하세요!