📝 채팅 능력을 쉽게 이식하는 ChatVector

우선 개념은 대략 다음과 같습니다.


사전학습 모델(A)를 인스트럭션 튜닝(B)을 통해 채팅 능력을 갖게합니다. 그 다음 B-A를 해서 채팅 능력만 추출된 C(가중치)를 다른 사전학습 모델 D에 이식하면, D도 채팅 능력을 갖게된다는 연구입니다.


개념적으로는 당연한 이야기긴한데, 진짜 된다는게 뭔가 흑마법 같은 느낌으로 신기하네요.


논문 👉 https://arxiv.org/abs/2310.04799


이 방식이 특히 놀라운 점은, 영어모델에서 추출한 채팅능력인 C를, 중국어나 일본어의 사전모델에도 반영이 가능하다는 것 입니다.


즉, 누군가 성능 좋은 한국어 사전학습 모델을 공개하면, 그걸 C를 이용해 바로 인스트럭션(채팅) 모델로 만들어서 사용 할 수 있다는건데요. 상당히 신기하네요.


몇몇 일본 연구자들이 실험해 본 것을 보았는데 실제로 작동을 한다고 하는군요. 업스테이지의 모델인 SOLAR에서 사용한 Merge와 일맥 상통하는 것 같기도 하고..


단순히 합치는 것 만으로는 성능이 좀 떨어질 수 있겠지만, 이 기술이 정말 보편적으로 잘 작동한다면, 이걸 초기 가중치로 해서 파인튜닝을 하는 것으로 컴퓨팅 자원을 크게 아낄 수 있겠습니다.

Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages

arXiv.org

Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 17일 오후 2:55

댓글 0

    함께 읽은 게시물

    Principe Engineer가 지향하는 가치와 기대

    Amazon에서 Principle Engineer가 가져야 할 가치와 기대에 대해 9지로 정의하였습니다. 모두 끄덕일 수 있는 내용이라 공감이 많이 되네요. 꼭 Priciple Engineer가 아니더라도 주니어일 때부터 지향해야 할 가치라고 생각됩니다.

    엔지니어가 가져야 할 자세

    Growth Ryan

    엔지니어가 가져야 할 자세

    제품을 빠르게 출시하는 8가지 방법

    ... 더 보기

    How to ship fast

    wrap text ↩

    How to ship fast

    성장을 위해 완벽주의를 버리다

    성장은 무엇인가요? 무엇인가를 얻거나 배우는 것이 성장이라고 생각하시나요? 하지만 내가 스스로 장점이라 생각했던 것을 상황에 따라 바꾸는 것도 성장인 것 같아요 최근에 이렇게 생각을 바꿔가게 되었던 경험을 적어봤습니다

    성장을 위해 완벽주의를 버리다

    Growth Ryan

    성장을 위해 완벽주의를 버리다

    🤖 최초의 AI 브라우저, Dia 직접 써봤습니다! 🌐

    ... 더 보기

    어려운 문제를 대하는 태도

    

    ... 더 보기

    이력서에 쓰는 경험

    

    ... 더 보기