Alpaca : 7B 크기이지만 뛰어난 성능을 보이는 모델

Stanford의 Foundation model 연구소에서 Alpaca 라는 모델을 공개했습니다. 해당 모델은 Meta의 LLaMA 7B 을 instruction based로 fine-tuning 한 형태입니다. 흥미로운 점은 OpenAI에서 높은 성능을 보이는 GPT 모델인 text-davinci-003 과 유사한 성능을 냈다고 하는 점입니다만... 이 부분은 사실 객관적인 데이터가 부족합니다. 해당 모델을 250여개의 평가 셋에 대해서 정성적인 평가를 진행한 것이기 때문입니다. 데모를 테스트 해 봐도 그정도 성능은 안나오는 듯 해 보입니다. 코드 (https://github.com/tatsu-lab/stanford_alpaca) 는 공개되어 있지만 LLaMA 모델 기반이라 (지금 완전히 유출되긴 했지만 원래는 research 목적으로만 사용) pretrained model은 공개가 되어 있지 않습니다. 그래도 fine-tuning 할 때 사용된 데이터는 공개 해 놓았네요. pretrained model 도 Meta와 이야기해서 공개할 예정이라고 하는데 non-commercial license 임을 염두에 둘 필요가 있습니다. 사실 여기서 이야기하는 것 처럼 성능이 그렇게 높은지는 아직 의문이지만, 작은 모델 사이즈로도 괜찮은 성능을 낼 수 있는 가능성을 약간은 보여주는 것 같습니다.

Stanford CRFM

Stanford

Stanford CRFM

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 14일 오전 1:47

 • 

저장 9조회 3,020

댓글 0