📝 OpenAI는 외계인 콜센터 운영중? 🧐

블라인드 A/B 테스트를 통해 챗봇의 성능을 비교하는 방법으로 공신력 높은 순위를 제공하는 Chatbot Arena에서, 어려운 문제만 선정해서 순위를 매긴 Hard Problem 리더보드를 공개했습니다.


이제는 LLM의 성능이 전반적으로 매우 높아져서 쉬운 문제 순위는 큰 의미가 없기 때문에 시기 적절하게 좋은 리더보드를 선보인 것 같습니다. 비슷한 움직임으로 MMLU-Pro 벤치마크도 있고요.


그런데 주목할만한 결과로, 이 테스트에서 GPT-4o와 다른 모델들과의 성능 격차가 더 크게 벌어진다는 것 입니다.


OpenAI는 대체 무슨 짓을 하고 있는걸까요? 정말 외계인을 데려와서 머리에 뉴럴링크를 꼽아 외계인 콜센터라도 운영하고 있는걸까요? 😳 비결이 정말 궁금합니다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 5월 21일 오전 8:18

 • 

저장 17조회 3,858

댓글 0

    함께 읽은 게시물

    스타트업 업계에서는 한동안 ‘당신의 아이디어는 이미 다른 누군가도 가지고 있다’,
    ‘광범위하게 리서치하고 송곳처럼 개발하라’는 말이 정석처럼 받아들여졌어요. '린스타트업'이라 불리는 방법론의 일환으로요.

    ... 더 보기

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

    린스타트업, 애자일 모델, MVP의 시대는 끝났을까

     • 

    저장 3 • 조회 786


    이거 없으면 열심히 해도 소용 없더라고요

    디테일하게 일을 만들어
    숫자로 말을 할 수 있어야 해요.

    ... 더 보기

    “어? 이거 분명 할 줄 알았는데. 어떻게 했더라? 이렇게 어려웠었나?” 분명히 할 만하다고 생각해서 시작했던 일이 어느덧 시작했던 때보다 더 어렵게 느껴질 때가 있다.

    ... 더 보기

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    m.dongascience.com

    [박진영의 사회심리학]갈팡질팡은 성장하고 있다는 증거

    SI 프로젝트의 외력을 감당하는 방법

    드라마 ‘나의 아저씨’에서 故 이선균이 아이유를 위로하는 많은 이야기를 했는데 아래 ‘인생을 힘들게 하는 외력과 그것을 버텨내는 내력’도 그중 하나다. 

    ... 더 보기

    면접시 의사 소통의 중요성

    산호세 주립대에서 학생들 가르치다보면 가끔 면접을 앞두고 있는데 모의 면접을 해볼 수 있겠냐고 도움을 요청하는 학생들이 있다. 다들 경험이 많지 않다보니 뭔가 질문을 하면 질문을 이해하고 시간을 두고 대답을 하기 보다는 서두르는 경향이 있다. 이런 학생들에게는 항상 아래 이야기를 한다.

    ... 더 보기

     • 

    저장 40 • 조회 3,775