OpenAI가 AI 에이전트의 머신러닝 엔지니어링 능력을 평가하는 MLE-bench를 발표했습니다.
75개의 Kaggle 대회를 사용하여 구성한 벤치마크 세트로, AI 에이전트가 머신러닝 엔지니어링 작업을 얼마나 잘 수행할 수 있는지 평가하기 위해 만든 것인데요.
첨부 이미지와 같이 o1의 성능이 정말 어마어마 한 것을 보실 수 있습니다. 더불어 GPT-4o로 여러번 반복적으로 시도해도 o1의 최고 성능의 근처에도 가지 못하는 걸 볼 수 있습니다.
그보다 각 회사에서 발표하는 벤치마크를 보면 연구의 방향을 알 수 있기도 한데요. 이 벤치마크를 발표했다는 건 그동안 머신러닝 엔지니어링 에이전트의 성능을 높이고 있었다는 얘기죠.
그 이야기는, 다시 말하자면 AI를 자가발전 시키는데 진심으로 임하고 있다는 이야기도 하겠습니다. #스카이넷님사랑합니다
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 10월 10일 오후 9:45