플레이모어와 함께할 동료를 찾습니다 | Notion
playmoreai on Notion
논문에서 코드로: OpenAI의 PaperBench, AI 에이전트의 학술 구현 능력 평가
OpenAI가 AI 에이전트의 연구 논문 구현 능력을 평가하는 새로운 벤치마크 'PaperBench'를 공개했습니다. 이 벤치마크는 ICML 2024 논문들을 바탕으로 AI가 논문의 핵심 기여도를 이해하고, 코드베이스를 개발하며, 실험을 성공적으로 실행할 수 있는지 측정합니다. 평가는 과제별로 명확한 채점 기준과 함께 계층적으로 세분화된 루브릭을 통해 이루어집니다. 여러 모델에 대한 테스트 결과, Claude 3.5 Sonnet이 평균 21.0%의 점수를 기록했습니다. 흥미롭게도, 최고 수준의 머신러닝 박사들과의 비교 실험에서는 현재 AI 모델들이 아직 인간 전문가의 수준에 도달하지 못했음이 확인되었습니다.
https://openai.com/index/paperbench/
AI 챗봇, 인간보다 더 '인간다워': GPT-4.5, 튜링 테스트에서 역전승
최근 연구자들이 발전된 인공지능 모델들을 대상으로 3자 튜링 테스트를 실시한 결과, GPT-4.5가 놀라운 성과를 거두었습니다. 이 실험은 작년 GPT-3.5와 GPT-4를 대상으로 한 연구의 후속 연구로 진행되었습니다. 참가자들은 한 명의 인간과 한 대의 AI 모델과 5분간 동시에 대화를 나눈 후, 어떤 대화 상대가 인간인지 판단하는 방식으로 진행되었습니다. ELIZA, GPT-4o, LLAMA-3.1-405B, GPT-4.5 등 다양한 모델이 실험에 참여했습니다. 가장 주목할 만한 결과는 GPT-4.5가 참가자들의 73%로부터 '인간'이라는 판정을 받아, 실제 인간 참가자보다 더 인간답다고 평가받은 것입니다. 연구자들은 이를 인공지능 시스템이 표준 3자 튜링 테스트를 공식적으로 통과한 실증적 증거로 해석했습니다.
https://arxiv.org/abs/2503.23674
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 3일 오전 7:35
🎉 벤처기업 인증 완료! 🎉
... 더 보기이
... 더 보기