GitHub - Olow304/memvid: Video-based AI memory library. Store millions of text chunks in MP4 files with lightning-fast semantic search. No database needed.
GitHub
최근 소형 LLM모델의 약진이 계속되면서, Phi 2, Gemma, Octopus v2 등 20~30억개 수준의 파라미터만 가지고도 고성능을 내는 모델들이 속속 나오고 있는데요.
요 며칠 Mixture-of-Depths라는 기법으로 Octopus v2가 아주 핫한 가운데, 또 다른 재미난 모델이 나왔네요.
MiniCPM은 MMLU, HumanEval, GSM8K 등 대표적인 벤치마크의 종합적인 성능에서 Mistral-7B, Llama2-13B, MPT-30B, Falcon-40B, Vicuna -33B 등을 모조리 뛰어넘는 결과를 보여줍니다.
심지어 MT-bench에서는 20억개의 파라미터만으로 700억개를 가진 LLaMA-2-70B-chat을 크게 뛰어넘는 성능을 보여줍니다.
이 연구는 성능이 뛰어나다는 것 보다는 다른 의미를 가지고 있는데요.
이는 뮤-트랜스퍼(uTransfer)라는 방법으로 배치 사이즈, 학습률 등의 하이퍼파라미터(모델 훈련시 사용하는 옵션)를 매우 작은 모델(0.009B)에서 실험해서 가장 좋은 하이퍼파라미터를 알아낸 뒤, 이걸 더 큰 모델(2B)에서 그대로 사용해도 그 효과가 있다는 것을 증명했다는 것 입니다.
즉, 작은 모델로 효율적으로 하이퍼파라미터를 탐색 할 수 있으므로 큰 모델을 매우 효율적으로 학습 시킬 수 있게 된다는 것 입니다.
만약 이 방법이 정말로 일반적으로 사용될 수 있다는 것이 검증되면, 수많은 LLM 모델들의 성능을 손쉽게 뻥튀기ㅎㅎ 할 수 있게 돼서 모델들의 성능이 전반적으로 한 단계 빠르게 오를 수도 있을 것 같습니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 4월 8일 오전 11:10
Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를
... 더 보기