Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages
arXiv.org
우선 개념은 대략 다음과 같습니다.
사전학습 모델(A)를 인스트럭션 튜닝(B)을 통해 채팅 능력을 갖게합니다. 그 다음 B-A를 해서 채팅 능력만 추출된 C(가중치)를 다른 사전학습 모델 D에 이식하면, D도 채팅 능력을 갖게된다는 연구입니다.
개념적으로는 당연한 이야기긴한데, 진짜 된다는게 뭔가 흑마법 같은 느낌으로 신기하네요.
논문 👉 https://arxiv.org/abs/2310.04799
이 방식이 특히 놀라운 점은, 영어모델에서 추출한 채팅능력인 C를, 중국어나 일본어의 사전모델에도 반영이 가능하다는 것 입니다.
즉, 누군가 성능 좋은 한국어 사전학습 모델을 공개하면, 그걸 C를 이용해 바로 인스트럭션(채팅) 모델로 만들어서 사용 할 수 있다는건데요. 상당히 신기하네요.
몇몇 일본 연구자들이 실험해 본 것을 보았는데 실제로 작동을 한다고 하는군요. 업스테이지의 모델인 SOLAR에서 사용한 Merge와 일맥 상통하는 것 같기도 하고..
단순히 합치는 것 만으로는 성능이 좀 떨어질 수 있겠지만, 이 기술이 정말 보편적으로 잘 작동한다면, 이걸 초기 가중치로 해서 파인튜닝을 하는 것으로 컴퓨팅 자원을 크게 아낄 수 있겠습니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 17일 오후 2:55