Pythia 2.8B 보다 성능이 낮았던 RedPajama 2.8B 모델을, 2배의 토큰인 600B 상당의 토큰으로 학습시킨 결과 성능이 Pythia-7B 을 뛰어넘었다고. LLaMA 도 증명했듯, GPT를 포함해 (아마도)대부분의 모델이 크기를 늘리지 않아도 더 많은 지식을 습득하면 더 높은 지능을 획득 할 수 있다는 뜻. 이제 당분간은 네트웍의 크기를 늘리는 일 보다는, 학습 해야 할 지식의 종류와 규모, 그리고 종류에 따른 학습 방법을 잘 선정하는 것이 중요한 것 같다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 5월 1일 오후 4:13

 • 

조회 2,643

댓글 0

    함께 읽은 게시물

    반드시 알아야 하는 7가지 데이터베이스 확장성 전략

    1. Materialized Views:

    ... 더 보기

     • 

    저장 215 • 조회 5,445


    < 진보는 조용히 오고, 파괴는 시끄럽게 온다 >

    1. 문제는 고쳐지고 사람들은 적응한다. 위협이 크면 해결책이 나올 동인도 똑같이 커진다.

    ... 더 보기