Llama 3에서 인상적인 점은 코드 데이터를 더 많이 넣어 추론 능력을 향상시켰고, 다국어 데이터도 꽤 많이 넣어 다국어 능력도 상당히 좋아졌다는 것 입니다.


그보다 학습 데이터의 양이 15T(조)개의 토큰으로 이루어져 있다는 것이 대단히 인상적인데요. 2T를 사용한 Llama 2의 7.5배나 되는 수준의 엄청난 양 입니다.


그런데, 8B 모델도 이정도 양의 데이터로도 수렴하지 않는 것 같다고 언급되었습니다. 이는 8B 모델도 성능 향상을 더 꾀할 수 있다는 얘기라고 보면 됩니다.


앞으로 다양한 목적의 모델을 더 내 놓을 것이라고 하는데요. 400B 모델도 그렇고 상당히 기대가 됩니다.


고성능의 오픈소스 모델의 춘추 전국 시대가 온 지 얼마 안된 것 같은데, 다시 한 번 Llama로 수렴되려나요? 과연 작은 LLM 모델을 개발하는 스타트업들은 어떻게 반응할까요? 이번주는 Llama 덕분에 재미난 한 주가 되겠네요. 😎🍿🥤

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 4월 19일 오전 2:43

댓글 0

    함께 읽은 게시물

    < 보여서 걷는 게 아니라, 걷다 보니 길 >

    1

    ... 더 보기

    앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코드를 주고 설명을 하라는 것이 유효할 것이다.


    내 경우는 이미 그렇게 하고 있는데, 요구사항을 주고 개발을 요청. 결과물이 요구사항대로 개발이 잘 되었다면, 다음 단계로 제출한 코드를 리뷰하며 설명을 요청한다.


    ... 더 보기

     • 

    댓글 2 • 저장 21 • 조회 3,547


    나는 종종 생산성을 올리기 위한 각종 개발 툴은 물론, 라이브러리나 소스 코드를 구매하기도 한다.


    소스 코드의 경우 실제로 써먹지 못하는 경우도 상당수 되긴 하지만, 그래도 구성이나 코드를 보면서 배우는게 있기 때문에 학습 비용이라고 생각하고 가끔 구매하는 편이다.


    ... 더 보기

    데이터 분석가 600명의 이직 결심 사유는 무엇일까요?

    ... 더 보기

    - YouTube

    www.youtube.com

     - YouTube