어제 OpenAI에서 GPT-4o의 업데이트 버전인 <chatgpt-4o-latest>와 <gpt-4o-2024-08-06>를 내 놓았는데요. Chatbot Arena 점수가 심하게 좋아서(첫번째 이미지) 이게 맞나? 싶어서 실제 사용기들을 좀 기다려봤습니다.


하루동안 올라온 다양한 리뷰들을 종합해보면, 실제로 성능이 많이 좋아지긴 했고, gpt-4o-2024-08-06 의 경우 실질적인 작업을 더 잘하게 되었고, chatgpt-4o-latest는 조금 ‘덜 로봇틱한’ 출력을 한다고 합니다.


OpenAI에 따르면 chatgpt-4o-latest는 ChatGPT에 사용하는 모델을 개발자나 연구자들이 평가해 볼 수 있게 열어준 것이고, 개발자들이 자기 서비스에 사용하는 것을 권장하는 모델은 gpt-4o-2024-08-06 인데요.


즉, chatgpt-4o-latest의 경우 채팅형에 적합하기 때문에 Chatbot Arena에서 더 좋은 평가를 받은 것 같습니다.


OpenAI의 설명에도 해당 모델은 학습 데이터의 추가/삭제 및 피드백 등을 기반으로 ChatGPT 사용자가 일반적으로 선호하는 행동을 하도록 만든 모델이라고 하고요. 참고로, 사용자의 선호도에 대한 평가 방식은 더 연구해서 공개 할 예정이라고 합니다.


하지만, livebench(두번째 이미지)에서는 Claude-3.5 Sonnet의 점수가 압도적으로 좋고, 개발자와 사용자들의 평가가 다양하게 엇갈리는 것을 보면, 이제 절대적은 성능은 벤치마크만으로는 우열을 크게 가리기는 어려운 것 같습니다.


즉, 이제 LLM의 성능이 어느정도 평준화(?) 되었다고 할 수 있겠는데요. (겨우 1년만에..😨) 역시나 이제부터의 관전 포인트는 자잘한(?) 성능이나 기능 업데이트 보다는 과연 다음 레벨의 AI를 먼저 내 놓을 팀, 회사가 어디가 될지가 아닌가 싶습니다. 😎🍿🥤

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 14일 오후 5:02

댓글 0