Paper page - TheAgentCompany: Benchmarking LLM Agents on Consequential Real World Tasks
huggingface.co
TheAgentCompany: AI 에이전트의 업무 수행 능력을 평가하는 확장 가능한 벤치마크
TheAgentCompany는 웹 검색, 코드 작성, 프로그램 실행, 커뮤니케이션 등 디지털 작업자와 유사하게 상호작용하는 AI 에이전트를 평가하기 위한 벤치마크입니다. 소규모 소프트웨어 회사 환경을 시뮬레이션하여 다양한 업무를 생성하고, 폐쇄형 API 기반 및 개방형 언어 모델로 구동되는 에이전트를 테스트했습니다. 결과적으로, 경쟁력 있는 에이전트는 작업의 24%를 자율적으로 완료할 수 있었으며, 간단한 작업은 자동화 가능하지만 복잡하고 장기적인 작업은 여전히 어려운 것으로 나타났습니다. 이는 AI 에이전트의 업무 자동화 가능성과 한계를 동시에 보여줍니다.
https://huggingface.co/papers/2412.14161
G-Pass와 LiveMathBench: LLM의 추론 능력과 일관성을 측정하는 새로운 기준
대규모 언어 모델(LLM)의 복잡한 추론 성능은 벤치마크와 실제 응용 간의 불일치로 인해 제대로 평가되지 못하고 있습니다. 이를 해결하기 위해 연구에서는 두 가지 기여를 소개합니다. 첫째, 모델의 최대 성능 잠재력과 안정성을 정량화하는 새로운 지표인 G-Pass@k를 제안했습니다. 둘째, 데이터 유출을 방지하며 최신 수학 문제로 구성된 동적 벤치마크인 LiveMathBench를 도입했습니다. 이를 통해 LLM의 최대 성능과 일관성을 종합적으로 분석한 결과, 모델의 추론 능력에는 여전히 개선 여지가 있으며 강력한 평가 프로토콜의 중요성이 부각되었습니다.
https://huggingface.co/papers/2412.13147
[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx
기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 12월 19일 오전 7:11
�
... 더 보기많은 조직에서, 실험을 ‘revenue 지표 향상시키는 아이디어 찾아내기’ 내지는 ‘기획안 통과시키기 위한 근거찾기’ 정도로 여기곤 합니다. 그리고 그런 숫자들을 어떻게든 찾아내는 일을 데이터 분석이라고 부르려 하죠. 적어도 제가 리딩하는 팀에서 하고자 하는 실험과 분석은, 그런 것이 아닙니다.
... 더 보기🗞️ 간밤에 구글이 Gemini 2.5 Pro를 출시했는데요. 벤치마크 상으로는 GPT-4.5와 Claude 3.7 의 성능을 크게 뛰어넘는 결과를 보여줍니다. 특히 코딩능력이 매우 크게 향상되었는데요.
... 더 보기