📝 OpenAI는 외계인 콜센터 운영중? 🧐

블라인드 A/B 테스트를 통해 챗봇의 성능을 비교하는 방법으로 공신력 높은 순위를 제공하는 Chatbot Arena에서, 어려운 문제만 선정해서 순위를 매긴 Hard Problem 리더보드를 공개했습니다.


이제는 LLM의 성능이 전반적으로 매우 높아져서 쉬운 문제 순위는 큰 의미가 없기 때문에 시기 적절하게 좋은 리더보드를 선보인 것 같습니다. 비슷한 움직임으로 MMLU-Pro 벤치마크도 있고요.


그런데 주목할만한 결과로, 이 테스트에서 GPT-4o와 다른 모델들과의 성능 격차가 더 크게 벌어진다는 것 입니다.


OpenAI는 대체 무슨 짓을 하고 있는걸까요? 정말 외계인을 데려와서 머리에 뉴럴링크를 꼽아 외계인 콜센터라도 운영하고 있는걸까요? 😳 비결이 정말 궁금합니다.

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 5월 21일 오전 8:18

 • 

저장 17조회 3,861

댓글 0

    함께 읽은 게시물

    PM의 '사고 파트너(thought partner)'로서 AI

    ... 더 보기

    사고 파트너(thought partner)로서 AI

    Brunch Story

    사고 파트너(thought partner)로서 AI

    한때 천만원에 거래되었던 Manus, Bedrock 무료 오픈소스로 공개

    ... 더 보기

    LinkedIn

    lnkd.in

    LinkedIn

     • 

    저장 20 • 조회 1,597