각종 LLM으로 AIME(미국 수학 경시대회 문제) 2024년과 2025년 문제를 풀게 한 뒤 성능을 비교한 차트.


세로축이 높은 경우, 학습 데이터에 벤치마크 데이터 오염이 있을 수 있거나 운으로 때려맞췄다는말로, 세로축이 낮을수록 실제 추론 능력이 높다는 것을 의미한다고 볼 수 있겠습니다. (점수가 들쭉날쭉하는건 연필굴리기 한다는 얘기죠. 혹은 악의적으로 스코어 해킹을 했을 수도 있고)


아직 비교한 LLM 모델이 몇 개 없지만, 추론 능력을 제대로 보려면 이런식으로 평가하는게 합리적일 것 같네요. 다른 모델들도 빨리 올라오길. 😎🍿🥤


벤치마크 출처: https://github.com/GAIR-NLP/AIME-Preview

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2025년 3월 8일 오전 9:52

댓글 0