📝 LLM의 성능과 규모의 상관관계에 대한 친칠라 스케일링 법칙에 대한 오해와, Llama 3 학습에 돈을 무진장 때려 넣은 이유


규모를 키우면 성능이 높아진다 (X)

데이터 양에 따른 최적의 모델 규모가 있다 (O)


이 이야기는 데이터의 양이 일정 수준이 된다면, 데이터를 더 늘리기보다 모델의 규모를 키우는 것이 오히려 비용 효율적이라는 것이기도 하다.


즉, 모델의 규모를 늘리는 것 보다, 학습 시키는 데이터를 성능이 더 높아질 때까지 충분히 크게 늘리는 것이 시간과 비용이 더 많이 들어간다는 이야기. (학습 인프라 비용 뿐 아니라 데이터 확보 및 정제 등등)


학습 데이터를 늘리는 것 보다 모델의 규모를 늘리는 것이 더 효율적이었던 이유는, LLM 모델이 커도 사용자의 규모가 적었기 때문에, 추론 비용보다 학습 비용을 줄이는게 더 타당했기 때문.


그러나 이제는 사용자의 규모가 무지막지하게 증가했고 더 증가할 것이 확실하기 때문에, 학습 비용이 크게 늘어난다고 해도 추론 비용이 적게 들도록 모델 사이즈를 줄이는 것이 더 비용 효율적이 됨.


그래서 Llama 3에 돈을 때려 부어서 엄청난 규모의 데이터를 학습시키는 것이 돈을 무지막지하게 태울 수 있는 회사만 가능한 것이지만, 그럴수있는 이유는 오히려 비용을 매우 크게 아끼는 것이 될 수 있기 때문.


그런고로, 농담삼아 말하자면, 모델의 규모를 키우는 것은 사실 “거 좀 쉽게 쉽게 갑시다~” 였다고 말 할 수 있다.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 21일 오후 4:51

댓글 1