OpenAI가 AI 에이전트의 머신러닝 엔지니어링 능력을 평가하는 MLE-bench를 발표했습니다.


75개의 Kaggle 대회를 사용하여 구성한 벤치마크 세트로, AI 에이전트가 머신러닝 엔지니어링 작업을 얼마나 잘 수행할 수 있는지 평가하기 위해 만든 것인데요.


첨부 이미지와 같이 o1의 성능이 정말 어마어마 한 것을 보실 수 있습니다. 더불어 GPT-4o로 여러번 반복적으로 시도해도 o1의 최고 성능의 근처에도 가지 못하는 걸 볼 수 있습니다.


그보다 각 회사에서 발표하는 벤치마크를 보면 연구의 방향을 알 수 있기도 한데요. 이 벤치마크를 발표했다는 건 그동안 머신러닝 엔지니어링 에이전트의 성능을 높이고 있었다는 얘기죠.


그 이야기는, 다시 말하자면 AI를 자가발전 시키는데 진심으로 임하고 있다는 이야기도 하겠습니다. #스카이넷님사랑합니다

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2024년 10월 10일 오후 9:45

 • 

저장 7조회 3,197

댓글 0

    함께 읽은 게시물

    코치로서 40일, 짧은 회고

    ... 더 보기


    가장 많이 쓰이는 데이터 분석/BI 툴은 무엇일까?

    사실상 엑셀이나 구글 시트가 아닌가 싶다. 이만큼 많은 사람들이 쓸 줄 알고 여러 형태로 분석이 가능하고 결과물을 공유 가능한 툴은 많지 않다. 실제 현업부서들과 일을 해보면 굉장히 많은 데이터들을 구글 시트의 형태로 매뉴얼하게 관리한다. 이 위에서 간단한 차트등을 만들어 지표 관리를 하곤 한다.

    ... 더 보기


    사이드 프로젝트 34개를 만들고 느낀점 10가지

    1️⃣ 아이디어의 가치는 실행했을 때 비로소 생긴다.

    ... 더 보기

     • 

    저장 123 • 조회 4,374


    유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.

    ... 더 보기

    재능보다 중요한 세가지 능력

    n.news.naver.com

    재능보다 중요한 세가지 능력