어제 OpenAI에서 GPT-4o의 업데이트 버전인 <chatgpt-4o-latest>와 <gpt-4o-2024-08-06>를 내 놓았는데요. Chatbot Arena 점수가 심하게 좋아서(첫번째 이미지) 이게 맞나? 싶어서 실제 사용기들을 좀 기다려봤습니다.


하루동안 올라온 다양한 리뷰들을 종합해보면, 실제로 성능이 많이 좋아지긴 했고, gpt-4o-2024-08-06 의 경우 실질적인 작업을 더 잘하게 되었고, chatgpt-4o-latest는 조금 ‘덜 로봇틱한’ 출력을 한다고 합니다.


OpenAI에 따르면 chatgpt-4o-latest는 ChatGPT에 사용하는 모델을 개발자나 연구자들이 평가해 볼 수 있게 열어준 것이고, 개발자들이 자기 서비스에 사용하는 것을 권장하는 모델은 gpt-4o-2024-08-06 인데요.


즉, chatgpt-4o-latest의 경우 채팅형에 적합하기 때문에 Chatbot Arena에서 더 좋은 평가를 받은 것 같습니다.


OpenAI의 설명에도 해당 모델은 학습 데이터의 추가/삭제 및 피드백 등을 기반으로 ChatGPT 사용자가 일반적으로 선호하는 행동을 하도록 만든 모델이라고 하고요. 참고로, 사용자의 선호도에 대한 평가 방식은 더 연구해서 공개 할 예정이라고 합니다.


하지만, livebench(두번째 이미지)에서는 Claude-3.5 Sonnet의 점수가 압도적으로 좋고, 개발자와 사용자들의 평가가 다양하게 엇갈리는 것을 보면, 이제 절대적은 성능은 벤치마크만으로는 우열을 크게 가리기는 어려운 것 같습니다.


즉, 이제 LLM의 성능이 어느정도 평준화(?) 되었다고 할 수 있겠는데요. (겨우 1년만에..😨) 역시나 이제부터의 관전 포인트는 자잘한(?) 성능이나 기능 업데이트 보다는 과연 다음 레벨의 AI를 먼저 내 놓을 팀, 회사가 어디가 될지가 아닌가 싶습니다. 😎🍿🥤

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 14일 오후 5:02

댓글 0

    함께 읽은 게시물

    스타트업 업계에서는 한동안 ‘당신의 아이디어는 이미 다른 누군가도 가지고 있다’,
    ‘광범위하게 리서치하고 송곳처럼 개발하라’는 말이 정석처럼 받아들여졌어요. '린스타트업'이라 불리는 방법론의 일환으로요.

    ... 더 보기

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

     • 

    저장 3 • 조회 700


    면접시 의사 소통의 중요성

    산호세 주립대에서 학생들 가르치다보면 가끔 면접을 앞두고 있는데 모의 면접을 해볼 수 있겠냐고 도움을 요청하는 학생들이 있다. 다들 경험이 많지 않다보니 뭔가 질문을 하면 질문을 이해하고 시간을 두고 대답을 하기 보다는 서두르는 경향이 있다. 이런 학생들에게는 항상 아래 이야기를 한다.

    ... 더 보기

     • 

    저장 39 • 조회 3,757


    “어? 이거 분명 할 줄 알았는데. 어떻게 했더라? 이렇게 어려웠었나?” 분명히 할 만하다고 생각해서 시작했던 일이 어느덧 시작했던 때보다 더 어렵게 느껴질 때가 있다.

    ... 더 보기

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    m.dongascience.com

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    이거 없으면 열심히 해도 소용 없더라고요

    디테일하게 일을 만들어
    숫자로 말을 할 수 있어야 해요.

    ... 더 보기

    SI 프로젝트의 외력을 감당하는 방법

    드라마 ‘나의 아저씨’에서 故 이선균이 아이유를 위로하는 많은 이야기를 했는데 아래 ‘인생을 힘들게 하는 외력과 그것을 버텨내는 내력’도 그중 하나다. 

    ... 더 보기