Pythia 2.8B 보다 성능이 낮았던 RedPajama 2.8B 모델을, 2배의 토큰인 600B 상당의 토큰으로 학습시킨 결과 성능이 Pythia-7B 을 뛰어넘었다고.
LLaMA 도 증명했듯, GPT를 포함해 (아마도)대부분의 모델이 크기를 늘리지 않아도 더 많은 지식을 습득하면 더 높은 지능을 획득 할 수 있다는 뜻.
이제 당분간은 네트웍의 크기를 늘리는 일 보다는, 학습 해야 할 지식의 종류와 규모, 그리고 종류에 따른 학습 방법을 잘 선정하는 것이 중요한 것 같다.