커리어리 친구들, 그동안 초거대 언어 모델에서 imstruction finetuning을 어땋게 하는지 궁금한 분들은 아래의 링크에 들아가시면 쉽게 이해하실 수 있습니다.
바로 고우영님이 공개해 주셨는 데, 코드를 기반으로 만든 사내 강의용 RLHF 코드로 agenda 는 다음과 같습니다.
🧚♂️ 수강생 각자가 원하는 도메인 선택(ex. 아이브)
🧚♂️ 각자가 원하는 도메인 데이터로 사전학습
🧚♂️ 원하는 도메인에 대해서 SFT 진행(ChatGPT 로 데이터 생성)
🧚♂️ PPO 실습(Lunar Lander2)
🧚♂️ 각자가 원하는 도메인에 대한 Reward 모델 학습(ChatGPT 로 데이터 생성)
🧚♂️ PPO 학습
🕹️ 실습 코드: https://github.com/oglee815/mygpt-lecture/tree/main
🕹️ 실습에 쓰일 사전학습 모델을 위해 skt-kogpt2 에 kullm-v2를 학습해서 허깅페이스에 올려놨어요~!!
https://huggingface.co/hyunjae/skt-kogpt2-kullm-v2