[1105]모두에게 전하는 모두연 AI뉴스!
* VLM의 수학 추론 능력을 테스트하는 동적 벤치마크 , DYNAMATH 시각-언어 모델(VLM)의 수학적 추론 능력은 최근 크게 발전했지만, 유사한 문제의 변형에서 일관된 실패를 보이는 한계가 있습니다. 이를 평가하기 위해 UC 버클리/일리노이 주립대학 공동 연구이 DYNAMATH라는 새로운 동적 벤치마크를 소개했습니다. DYNAMATH는 501개의 고품질 시드 문제를 파이썬 프로그램으로 구현하여, 시각적 수치나 함수 그래프 등이 다른 다양한 변형 문제를 자동으로 생성할 수 있습니다. 14개의 최신 VLM을 대상으로 시시드 문제당 최대 10번 변형된 5,010개의 생성된 문제로 평가한 결과, 모든 변형에서 정답을 맞추는 정확도가 평균 정확도보다 현저히 낮았습니다. 또한 모델들은 특정 변형에서 일관된 오답을 보였는데, 이는 단순한 무작위성이 아닌 체계적인 한계를 시사합니다. 이 연구는 VLM의 수학적 추론 견고성 향상의 필요성을 강조하며, 더 신뢰할 수 있는 모델 개발을 위한 중요한 통찰을 제공합니다. https://dynamath.github.io/ * LLM이 모델을 평가할 수 있는 능력이 있을 지 테스트하는 벤치마크 : JUDGEBENCH 모델의 평가, 비교 및 개선을 LLM을 통해 평가하는 방법이 인간 평가의 대안으로 부상하고 있으나, 이들의 신뢰성 검증은 미흡한 상황입니다. LLM이 발전할수록 응답이 더 정교해지면서, 이를 평가하기 위한 더 강력한 평가자가 필요해졌지만, 기존 벤치마크는 인간 선호도와의 일치성에만 중점을 두어, 사실적·논리적 정확성이 중요한 과제들을 제대로 평가하지 못했습니다. 이에 UC 버클리/위싱턴 주립대학 공동 연구진은 LLM 기반 평가자를 객관적으로 평가할 수 있는 새로운 프레임워크인 'JudgeBench'를 제안했습니다. JudgeBench는 지식, 추론, 수학, 코딩 등 다양한 영역에서 까다로운 응답 쌍을 평가하며, 기존 데이터셋을 객관적 정확성을 반영하는 선호도 레이블이 있는 응답 쌍으로 변환하는 혁신적인 파이프라인을 활용합니다. 평가 결과, GPT-4와 같은 강력한 모델들도 무작위 추측보다 약간 나은 수준의 성능만을 보여, JudgeBench가 더 발전된 LLM 기반 평가자들을 위한 신뢰할 수 있는 도전적인 벤치마크임이 입증되었습니다. https://github.com/ScalerLab/JudgeBench [아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th