Llama 3에서 인상적인 점은 코드 데이터를 더 많이 넣어 추론 능력을 향상시켰고, 다국어 데이터도 꽤 많이 넣어 다국어 능력도 상당히 좋아졌다는 것 입니다.


그보다 학습 데이터의 양이 15T(조)개의 토큰으로 이루어져 있다는 것이 대단히 인상적인데요. 2T를 사용한 Llama 2의 7.5배나 되는 수준의 엄청난 양 입니다.


그런데, 8B 모델도 이정도 양의 데이터로도 수렴하지 않는 것 같다고 언급되었습니다. 이는 8B 모델도 성능 향상을 더 꾀할 수 있다는 얘기라고 보면 됩니다.


앞으로 다양한 목적의 모델을 더 내 놓을 것이라고 하는데요. 400B 모델도 그렇고 상당히 기대가 됩니다.


고성능의 오픈소스 모델의 춘추 전국 시대가 온 지 얼마 안된 것 같은데, 다시 한 번 Llama로 수렴되려나요? 과연 작은 LLM 모델을 개발하는 스타트업들은 어떻게 반응할까요? 이번주는 Llama 덕분에 재미난 한 주가 되겠네요. 😎🍿🥤

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 4월 19일 오전 2:43

댓글 0

    함께 읽은 게시물

    한때 천만원에 거래되었던 Manus, Bedrock 무료 오픈소스로 공개

    ... 더 보기

    LinkedIn

    lnkd.in

    LinkedIn

     • 

    저장 21 • 조회 1,608


    PM의 '사고 파트너(thought partner)'로서 AI

    ... 더 보기

    사고 파트너(thought partner)로서 AI

    Brunch Story

    사고 파트너(thought partner)로서 AI