대부분의 LLM 모델들이 GPT-3.5 수준은 도달했지만, Google 이나 Anthropic 정도를 제외하고는 아직 GPT-4 수준의 모델이 나오지 않은 그럴듯한 의견이 하나 있는데요.


그 이유는 대부분의 모델들이 GPT-3.5 수준의 아키텍처에서 크게 벗어나지 못하고 있는 것과, GPT의 출력 결과를 학습 데이터로 사용한다는 것 입니다.


굉장히 많은 LLM들이 연구개발되고 있지만, 성능을 높이기 위한 데이터로 대부분 GPT-4에서 뽑아낸 데이터를 이용하기 때문에, 증류(distillation)하는 수준, 즉 그 하위 호환 모델밖에 만들어 내고 있지 못하다는 것이죠.


그런 관점에서 GPT-3.5 의 성능에 준하거나 혹은 뛰어 넘었다는 모델들의 성능 지표를 잘 살펴보면, 유창성이나 일부 테스트에서는 따라잡았어도 다국어나 추론 능력은 제자리 걸음인 경우가 많은데요. 이런 현상들로 봤을 땐 그럴듯한 의견이 아닐까 싶습니다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 12월 17일 오전 1:52

댓글 0

    함께 읽은 게시물


    노션 템플릿들을 만들면서 적는 회고

    ... 더 보기

    👋 디자이너도 앱을 만들 수 있을까?

    ... 더 보기

    디자이너도 앱을 만들 수 있을까?

    Brunch Story

    디자이너도 앱을 만들 수 있을까?