SmolLM - blazingly fast and remarkably powerful
huggingface.co
허깅페이스, SmolLM 공개
허깅페이스가 오픈 Small Language Model (이하 SLM) SmolLM을 출시하였습니다! 이와 함께 허깅페이스는 어떻게 SLM 의 성능 향상을 이루어내었는지 자세한 훈련 과정을 함께 발표하였습니다. SmolLM은 135M, 360M, 1.7B 의 크기의 SLM 을 두 가지의 형태, Pretraned model과 instruct tuning을 마친 모델로 제공합니다. 레포트에 따르면 SmolLM은 MMMU, Avg 등의 유효한 SLM 평가 벤치마크에서 비슷한 규모의 Qwen2, pythia 시리즈보다 높은 성능을 기록하였으며, 일부 벤치마크에서 Meta의 MobileLLM를 제치고 SOTA를 달성하였습니다. 또한 SmolLM 은 데이터 큐레이션 및 훈련에 대한 대부분의 세부 정보 또한 공개적으로 제공하여, SLM 의 후속 연구에 기여합니다. 레포트를 통해 연구진은 훈련에 사용된 8B 토큰 규모의 smollm-corpus 를 공개하며, 훈련에 사용된 세팅, 파라메터와 훈련에서 관찰된 디테일을 함께 공개하였습니다.
https://huggingface.co/blog/smollm
Meta, MobileLLM 정식 출시
Meta가 지난 7월 발표한 MobileLLM을 한층 더 경량화하여 정식 출시 하였습니다!
MobileLLM은 사용자 장치 등에서 바로 사용할 수 있도록 1B 미만 규모로 최적화한 LLM입니다. 레이어를 공유 하는 접근 방식, 세부적으로는 트랜스포머 블록을 단순히 복제하는 방식을 취하여 모델 크기를 증가시키지 않고도 정확도를 향상시켰으며, 네트워크 깊이 조정, 임베딩 공유를 통하여 작은 모델을 완성하였습니다. MobileLLM은 125M, 350M, 600M 및 1B 모델을 오픈소스로 출시하였으며, 비슷한 규모의 파라메터로 구성된 OPT, Pythia 등의 동등한 규모의 SLM 시리즈보다 10% 이상의 성능 격차를 이루어내며 SOTA를 달성했습니다.
https://github.com/facebookresearch/MobileLLM
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정!
AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 4일 오전 6:21