- YouTube
undefined
그 이유는 대부분의 모델들이 GPT-3.5 수준의 아키텍처에서 크게 벗어나지 못하고 있는 것과, GPT의 출력 결과를 학습 데이터로 사용한다는 것 입니다.
굉장히 많은 LLM들이 연구개발되고 있지만, 성능을 높이기 위한 데이터로 대부분 GPT-4에서 뽑아낸 데이터를 이용하기 때문에, 증류(distillation)하는 수준, 즉 그 하위 호환 모델밖에 만들어 내고 있지 못하다는 것이죠.
그런 관점에서 GPT-3.5 의 성능에 준하거나 혹은 뛰어 넘었다는 모델들의 성능 지표를 잘 살펴보면, 유창성이나 일부 테스트에서는 따라잡았어도 다국어나 추론 능력은 제자리 걸음인 경우가 많은데요. 이런 현상들로 봤을 땐 그럴듯한 의견이 아닐까 싶습니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2023년 12월 17일 오전 1:52
우
... 더 보기i
... 더 보기혹시 Claude 나 cursor 등 AI 로 개발하실 때
뭔가 AI 스러운 뻔한 디자인 때문에
안
... 더 보기1
... 더 보기스
... 더 보기