[0403]모두에게 전하는 모두연 AI뉴스!

  • 논문에서 코드로: OpenAI의 PaperBench, AI 에이전트의 학술 구현 능력 평가

OpenAI가 AI 에이전트의 연구 논문 구현 능력을 평가하는 새로운 벤치마크 'PaperBench'를 공개했습니다. 이 벤치마크는 ICML 2024 논문들을 바탕으로 AI가 논문의 핵심 기여도를 이해하고, 코드베이스를 개발하며, 실험을 성공적으로 실행할 수 있는지 측정합니다. 평가는 과제별로 명확한 채점 기준과 함께 계층적으로 세분화된 루브릭을 통해 이루어집니다. 여러 모델에 대한 테스트 결과, Claude 3.5 Sonnet이 평균 21.0%의 점수를 기록했습니다. 흥미롭게도, 최고 수준의 머신러닝 박사들과의 비교 실험에서는 현재 AI 모델들이 아직 인간 전문가의 수준에 도달하지 못했음이 확인되었습니다.


https://openai.com/index/paperbench/


  • AI 챗봇, 인간보다 더 '인간다워': GPT-4.5, 튜링 테스트에서 역전승

최근 연구자들이 발전된 인공지능 모델들을 대상으로 3자 튜링 테스트를 실시한 결과, GPT-4.5가 놀라운 성과를 거두었습니다. 이 실험은 작년 GPT-3.5와 GPT-4를 대상으로 한 연구의 후속 연구로 진행되었습니다. 참가자들은 한 명의 인간과 한 대의 AI 모델과 5분간 동시에 대화를 나눈 후, 어떤 대화 상대가 인간인지 판단하는 방식으로 진행되었습니다. ELIZA, GPT-4o, LLAMA-3.1-405B, GPT-4.5 등 다양한 모델이 실험에 참여했습니다. 가장 주목할 만한 결과는 GPT-4.5가 참가자들의 73%로부터 '인간'이라는 판정을 받아, 실제 인간 참가자보다 더 인간답다고 평가받은 것입니다. 연구자들은 이를 인공지능 시스템이 표준 3자 튜링 테스트를 공식적으로 통과한 실증적 증거로 해석했습니다.


https://arxiv.org/abs/2503.23674

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 3일 오전 7:35

댓글 0

    함께 읽은 게시물

    🎉 벤처기업 인증 완료! 🎉

    ... 더 보기

    플레이모어와 함께할 동료를 찾습니다 | Notion

    playmoreai on Notion

    플레이모어와 함께할 동료를 찾습니다 | Notion


    [데이터 분석할 때 ??? ??? ??은 꼭 필요해요!]

    실제 업무에 사용하는 데이터는 매우 복잡하고 잘 정리되지 않은 경우가 많습니다. 그리고 불필요한 데이터도 섞여있기 마련이죠. 따라서 실무에 사용할 데이터를 분석하기에 용이한 쓸모있는 상태로 만들어주는 단계가 필요합니다. 이때 데이터 분석가는 EDA를 사용합니다. EDA 는 Exploratory Data Analysis 의 줄임말로 탐색적 데이터 분석이라고 합니다. EDA는 어떻게 데이터를 쓸모있게 만들까라는 고민을 도와주는 단계인 것이죠. 그럼 데이터 분석가가 EDA를 하지 않았을때 생길수 있는... 더 보기

     • 

    저장 3 • 조회 1,485