Paper page - On Path to Multimodal Generalist: General-Level and General-Bench
huggingface.co
MLLM, 진정한 '만능'을 향하여: 제너럴-벤치로 본 현재와 미래
이 연구는 다중 모드 대규모 언어 모델(MLLM)을 위한 새로운 평가 프레임워크인 '제너럴-레벨(General-Level)'과 방대한 벤치마크 데이터셋인 '제너럴-벤치(General-Bench)'를 제시합니다. 제너럴-레벨은 이해, 생성, 다중 모드 상호작용 전반에 걸쳐 시너지 효과를 유지하는 능력을 기반으로 MLLM의 성능을 5단계로 분류하여 평가합니다. 제너럴-벤치는 이미지, 비디오, 오디오, 3D 등 다양한 형식의 700개 이상의 작업과 325,800개의 인스턴스를 포함하여 광범위한 기술, 양식, 형식을 포괄합니다. 100개 이상의 기존 LLM/MLLM에 대한 벤치마킹 결과, 현재 모델들은 다중 모드 일반화 모델로서의 역량에 한계가 있으며, 특히 언어 능력을 향상시키는 데 있어 어려움을 겪고 있음을 보여줍니다. 본 연구는 차세대 다중 모드 기반 모델 개발을 촉진하여 더욱 정교하고 범용적인 다중 모드 인공지능 실현에 기여하고자 합니다.
https://huggingface.co/papers/2505.04620
인공지능의 '마음'을 읽다: SAGE, LLM의 사회적 인지 능력 자동 평가
대규모 언어 모델(LLM)이 단순한 텍스트 이해를 넘어 인간을 얼마나 잘 이해하는지 평가하는 것은 중요한 과제입니다. 이를 위해 새로운 자동 평가 프레임워크인 SAGE(Sentient Agent as a Judge)가 공개되었습니다. SAGE는 인간과 유사한 감정 변화와 내적 사고를 시뮬레이션하는 '지각 있는 에이전트'를 통해 LLM의 고차원적 사회적 인지 능력을 측정합니다. 에이전트는 매 턴마다 감정 변화, 느낌, 응답 방식을 추론하여 수치화된 감정 궤적과 해석 가능한 내적 사고를 제공합니다. 100개의 지원 대화 시나리오 실험 결과, 최종 감정 점수는 기존 심리 평가 도구(BLRI) 및 공감 지표와 높은 상관관계를 보여 심리적 충실도를 입증했습니다. 또한, 18개 모델을 포함한 공개 리더보드는 기존 리더보드와 다른 양상을 보이며, 최신 모델과 이전 모델 간의 큰 격차를 드러냈습니다. SAGE는 진정으로 공감하고 사회적으로 능숙한 언어 에이전트 개발을 위한 원칙적이고 확장 가능하며 해석 가능한 평가 도구를 제공합니다.
https://huggingface.co/papers/2505.02847
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 5월 9일 오전 6:57