[0306]모두에게 전하는 모두연 AI뉴스!

  • MultiAgentBench: LLM 에이전트들의 협력과 경쟁 평가하기

대화형 시나리오에서 LLM 기반 멀티 에이전트 시스템을 평가하기 위해 설계된 MultiAgentBench를 소개합니다. 리서치, 데이터베이스, 코딩, 마인크래프트 건설, 웨어울프 게임, 협상 게임의 환경에서 멀티 에이전트의 동작을 평가합니다. 평가 지표는 크게 두 가지 차원으로 이루어져 있습니다. 작업 마일스톤 기반 핵심 성과 지표(KPI)를 통해 작업 완료 성능을 평가하고, Communication score, Planning score 등을 평가해 멀티 에이전트 시스템의 협업 및 경쟁의 품질도 평가 합니다. 특히, gpt-4o-mini는 평균 최고 과제 점수에 도달하고 그래프 구조는 연구 시나리오에서 조정 프로토콜 중 가낭 우수한 성능을 보이며, 인지 계획은 마일스톤 달성률을 3% 향상시키는 것으로 나타났습니다.


https://huggingface.co/papers/2503.01935


  • 언어의 장벽을 넘어: Babel, 다국어 LLM의 새로운 기준을 세우다

알리바바 그룹의 DAMO Academy에서 전 세계 인구의 90% 이상을 지원하는 개방형 다국어 LLM인 Babel 공개했습니다. 기존의 지속적인 사전 학습 접근 방식과 달리, Babel은 원래 레이어와 동일한 구조의 새 레이어를 직접 추가하는 구조화된 방법인 레이어 확장 기술을 통해 파라미터 수를 확장하여 Babel의 성능 한계를 높였습니다. Babel 시리즈는 다국어 작업에 대한 광범위한 평가를 통해 비슷한 규모의 개방형 LLM에 비해 우수한 성능이 입증되었습니다. 특히, Babel-9B-Chat은 10B 크기의 LLM 중에서 최첨단 성능을 달성했으며, Babel-83B-Chat은 개방형 LLM의 새로운 벤치마크를 설정하고 특정 작업에서 GPT-4o와 같은 최첨단 상용 모델과 비슷한 성능을 발휘하기도 했습니다.


https://huggingface.co/papers/2503.00865


[마감임박]아이펠 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A

Paper page - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

huggingface.co

Paper page - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 3월 6일 오전 6:45

댓글 0