노코드 자동화 입문부터 실전까지: n8n 완전정복 강의 | 데이터팝콘 - 인프런 | 변성윤
tinyurl.com
그 이유는 대부분의 모델들이 GPT-3.5 수준의 아키텍처에서 크게 벗어나지 못하고 있는 것과, GPT의 출력 결과를 학습 데이터로 사용한다는 것 입니다.
굉장히 많은 LLM들이 연구개발되고 있지만, 성능을 높이기 위한 데이터로 대부분 GPT-4에서 뽑아낸 데이터를 이용하기 때문에, 증류(distillation)하는 수준, 즉 그 하위 호환 모델밖에 만들어 내고 있지 못하다는 것이죠.
그런 관점에서 GPT-3.5 의 성능에 준하거나 혹은 뛰어 넘었다는 모델들의 성능 지표를 잘 살펴보면, 유창성이나 일부 테스트에서는 따라잡았어도 다국어나 추론 능력은 제자리 걸음인 경우가 많은데요. 이런 현상들로 봤을 땐 그럴듯한 의견이 아닐까 싶습니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2023년 12월 17일 오전 1:52
추
... 더 보기이
... 더 보기