MMLU(Massive Multitask Language Understanding)는 수학·물리학·역사·법률·의학·윤리 등 57개의 주제를 복합적으로 활용해 AI의 지식과 문제 해결 능력을 평가하는, 복합적인 지식에 대한 언어 이해 테스트입니다.
대규모 언어 모델(LLM)의 성능 평가 지표 중 가장 유의미한 지표로 인정받고 있는데요.
언어 모델의 성능이 크게 높아지면서 더 높은 수준의 테스트가 필요해짐에 따라 이를 업그레이드한 MMLU-Pro 벤치마크 테스트가 출시되었습니다.
12K 질문을 가진 테스트셋으로, 원래의 MMLU가 가진 4가지 옵션 대신 10가지 옵션을 사용하여 무작위로 추측해 맞출 확률을 낮췄습니다.
또한 다양한 분야에 걸쳐 더 많은 대학 수준의 문제를 추가함으로써 복잡성 수준을 크게 증가시켜 견고하며 다른 프롬프트에 덜 민감해졌다고 합니다.
테스트셋 출시와 함께 다양한 언어모델에 대한 테스트도 진행하여 점수를 공개했는데요.
GPT-4o(71%)가 GPT-4 Turbo(62%)보다 약 9%p 더 높은 점수를 받았고, 2위인 Claude 3 Opus(64%)보다도 약 7%p 높은 점수를 받았습니다.
GPT-4o의 압도적인 성능에 다시 한 번 놀라게 되네요. 😳 (MMLU-Pro는 최신 벤치마크여서 학습 데이터에 포함될 일이 없으니 성능 치팅의 가능성이 거의 없을겁니다)
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 5월 20일 오전 8:03