사고 파트너(thought partner)로서 AI
Brunch Story
블라인드 A/B 테스트를 통해 챗봇의 성능을 비교하는 방법으로 공신력 높은 순위를 제공하는 Chatbot Arena에서, 어려운 문제만 선정해서 순위를 매긴 Hard Problem 리더보드를 공개했습니다.
이제는 LLM의 성능이 전반적으로 매우 높아져서 쉬운 문제 순위는 큰 의미가 없기 때문에 시기 적절하게 좋은 리더보드를 선보인 것 같습니다. 비슷한 움직임으로 MMLU-Pro 벤치마크도 있고요.
그런데 주목할만한 결과로, 이 테스트에서 GPT-4o와 다른 모델들과의 성능 격차가 더 크게 벌어진다는 것 입니다.
OpenAI는 대체 무슨 짓을 하고 있는걸까요? 정말 외계인을 데려와서 머리에 뉴럴링크를 꼽아 외계인 콜센터라도 운영하고 있는걸까요? 😳 비결이 정말 궁금합니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 5월 21일 오전 8:18
누
... 더 보기한
... 더 보기