Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0403]모두에게 전하는 모두연 AI뉴스!

논문에서 코드로: OpenAI의 PaperBench, AI 에이전트의 학술 구현 능력 평가

OpenAI가 AI 에이전트의 연구 논문 구현 능력을 평가하는 새로운 벤치마크 'PaperBench'를 공개했습니다. 이 벤치마크는 ICML 2024 논문들을 바탕으로 AI가 논문의 핵심 기여도를 이해하고, 코드베이스를 개발하며, 실험을 성공적으로 실행할 수 있는지 측정합니다. 평가는 과제별로 명확한 채점 기준과 함께 계층적으로 세분화된 루브릭을 통해 이루어집니다. 여러 모델에 대한 테스트 결과, Claude 3.5 Sonnet이 평균 21.0%의 점수를 기록했습니다. 흥미롭게도, 최고 수준의 머신러닝 박사들과의 비교 실험에서는 현재 AI 모델들이 아직 인간 전문가의 수준에 도달하지 못했음이 확인되었습니다.

https://openai.com/index/paperbench/

AI 챗봇, 인간보다 더 '인간다워': GPT-4.5, 튜링 테스트에서 역전승

최근 연구자들이 발전된 인공지능 모델들을 대상으로 3자 튜링 테스트를 실시한 결과, GPT-4.5가 놀라운 성과를 거두었습니다. 이 실험은 작년 GPT-3.5와 GPT-4를 대상으로 한 연구의 후속 연구로 진행되었습니다. 참가자들은 한 명의 인간과 한 대의 AI 모델과 5분간 동시에 대화를 나눈 후, 어떤 대화 상대가 인간인지 판단하는 방식으로 진행되었습니다. ELIZA, GPT-4o, LLAMA-3.1-405B, GPT-4.5 등 다양한 모델이 실험에 참여했습니다. 가장 주목할 만한 결과는 GPT-4.5가 참가자들의 73%로부터 '인간'이라는 판정을 받아, 실제 인간 참가자보다 더 인간답다고 평가받은 것입니다. 연구자들은 이를 인공지능 시스템이 표준 3자 튜링 테스트를 공식적으로 통과한 실증적 증거로 해석했습니다.

https://arxiv.org/abs/2503.23674

다음 내용이 궁금하다면?

이미 회원이신가요?

2025년 4월 3일 오전 7:35

함께 읽은 게시물

골빈해커

Chief Maker

3일 전

🎉 벤처기업 인증 완료! 🎉

플레이모어와 함께할 동료를 찾습니다 | Notion

playmoreai on Notion

저장 1 • 조회 1,948

김의중

프론트엔드 개발자

2일 전

이력서는 붙는데 면접에서 계속 떨어진다면?

이

개발자로 성장하는 데 필요한 건 어떤 태도일까? | 우아한 형제들 출신 멘토님

F-Lab : 상위 1% 개발자들의 멘토링

•

저장 17 • 조회 1,217

𝙍𝙞𝙘𝙝𝙖𝙧𝙙

처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

2023년 07월 23일

[데이터 분석할 때 ??? ??? ??은 꼭 필요해요!]

실제 업무에 사용하는 데이터는 매우 복잡하고 잘 정리되지 않은 경우가 많습니다. 그리고 불필요한 데이터도 섞여있기 마련이죠. 따라서 실무에 사용할 데이터를 분석하기에 용이한 쓸모있는 상태로 만들어주는 단계가 필요합니다. 이때 데이터 분석가는 EDA를 사용합니다. EDA 는 Exploratory Data Analysis 의 줄임말로 탐색적 데이터 분석이라고 합니다. EDA는 어떻게 데이터를 쓸모있게 만들까라는 고민을 도와주는 단계인 것이죠. 그럼 데이터 분석가가 EDA를 하지 않았을때 생길수 있는... 더 보기

•

저장 3 • 조회 1,485

주간 인기 TOP 10

psmon 웹노리라이터

구현패턴으로 DB사용비용을 10배줄이기

K리그 프로그래머 커피한잔 개발자

1인 개발자의 최고의 사무실은 바로 자기집 방구석

한기용 UpZen 창업자 대표 & 산호세 주립대 교수

Airflow 3.0 주요 기능 소개

석민 커리어 코치

전략적 입사 지원

달레 Apollo GraphQL Software Engineer

🧊 급격하게 얼어붙고 있는 해외 취업 시장 🥶

김의중 프론트엔드 개발자

"마케팅을 바꾸는 데이터의 힘"을 읽고 정리해본 마케팅/데이터 개

조찬우 Coupang Sr. iOS Engineer

좋은 개발자는 환경이 만든다

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

엔지니어링의 핵심, 유지 보수가 가능한 파이프라인 구성하기

하조은 당근 Product Engineer

발이 닿지 않는 바다에서

장홍석 스페이스오디티 부대표/CPO

< AI의 '환각'보다 무서운, 내가 만드는 '환상' >

[0403]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

이력서는 붙는데 면접에서 계속 떨어진다면?

[데이터 분석할 때 ??? ??? ??은 꼭 필요해요!]

주간 인기 TOP 10

추천 프로필