새로운 소식이 넘치는 ‘GTC 2025’ 하이라이트 - NVIDIA Blog Korea
NVIDIA Blog Korea
OpenAI가 AI 에이전트의 머신러닝 엔지니어링 능력을 평가하는 MLE-bench를 발표했습니다.
75개의 Kaggle 대회를 사용하여 구성한 벤치마크 세트로, AI 에이전트가 머신러닝 엔지니어링 작업을 얼마나 잘 수행할 수 있는지 평가하기 위해 만든 것인데요.
첨부 이미지와 같이 o1의 성능이 정말 어마어마 한 것을 보실 수 있습니다. 더불어 GPT-4o로 여러번 반복적으로 시도해도 o1의 최고 성능의 근처에도 가지 못하는 걸 볼 수 있습니다.
그보다 각 회사에서 발표하는 벤치마크를 보면 연구의 방향을 알 수 있기도 한데요. 이 벤치마크를 발표했다는 건 그동안 머신러닝 엔지니어링 에이전트의 성능을 높이고 있었다는 얘기죠.
그 이야기는, 다시 말하자면 AI를 자가발전 시키는데 진심으로 임하고 있다는 이야기도 하겠습니다. #스카이넷님사랑합니다
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 10월 10일 오후 9:45
사실상 엑셀이나 구글 시트가 아닌가 싶다. 이만큼 많은 사람들이 쓸 줄 알고 여러 형태로 분석이 가능하고 결과물을 공유 가능한 툴은 많지 않다. 실제 현업부서들과 일을 해보면 굉장히 많은 데이터들을 구글 시트의 형태로 매뉴얼하게 관리한다. 이 위에서 간단한 차트등을 만들어 지표 관리를 하곤 한다.
... 더 보기2
... 더 보기유튜브가 대세이다. 포탈 사이트에서 검색하던 사람들이 이제는 유튜브에서 먼저 검색하며, 한 해 수입이 수십 억에 달하는 유튜버들도 많다고 한다. 이런 분위기에 영향을 받아 필자도 콘텐츠 개발과 홍보 차원에서 유튜브를 본격적으로 시작했다.
... 더 보기