lnkd.in
Llama 3에서 인상적인 점은 코드 데이터를 더 많이 넣어 추론 능력을 향상시켰고, 다국어 데이터도 꽤 많이 넣어 다국어 능력도 상당히 좋아졌다는 것 입니다.
그보다 학습 데이터의 양이 15T(조)개의 토큰으로 이루어져 있다는 것이 대단히 인상적인데요. 2T를 사용한 Llama 2의 7.5배나 되는 수준의 엄청난 양 입니다.
그런데, 8B 모델도 이정도 양의 데이터로도 수렴하지 않는 것 같다고 언급되었습니다. 이는 8B 모델도 성능 향상을 더 꾀할 수 있다는 얘기라고 보면 됩니다.
앞으로 다양한 목적의 모델을 더 내 놓을 것이라고 하는데요. 400B 모델도 그렇고 상당히 기대가 됩니다.
고성능의 오픈소스 모델의 춘추 전국 시대가 온 지 얼마 안된 것 같은데, 다시 한 번 Llama로 수렴되려나요? 과연 작은 LLM 모델을 개발하는 스타트업들은 어떻게 반응할까요? 이번주는 Llama 덕분에 재미난 한 주가 되겠네요. 😎🍿🥤
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 4월 19일 오전 2:43
한
... 더 보기누
... 더 보기