Paper page - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution
huggingface.co
CompassJudger-1: LLM 평가의 새로운 지평을 여는 올인원 심사 도구
이 보고서는 대규모 언어 모델(LLM)의 효율적이고 정확한 평가를 위한 올인원 심사 LLM인 CompassJudger-1을 소개합니다. CompassJudger-1은 보상 모델로서 단일 점수화 및 두 모델 비교를 수행하고, 지정된 형식에 따라 평가를 수행하며, 비평을 생성하고, 일반 LLM처럼 다양한 작업을 실행할 수 있습니다. 또한 다양한 주관적 평가 작업을 포함하고 광범위한 주제를 다루는 새로운 벤치마크인 JudgerBench를 구축하여 통합된 설정에서 다양한 심사 모델의 평가 기능을 평가합니다. CompassJudger-1은 다양한 요구 사항에 맞게 조정할 수 있는 유연성을 유지하면서 다양한 평가 작업을 위한 포괄적인 솔루션을 제공합니다. CompassJudger와 JudgerBench는 모두 공개되어 연구 커뮤니티에서 사용할 수 있습니다.
https://huggingface.co/papers/2410.16256
LLM 에이전트, 웹 탐색의 한계를 넘다: 월드 모델의 힘!
이 논문에서는 웹 탐색에서 환경 역학을 이해하는 최첨단 대규모 언어 모델(LLM)의 한계를 해결하기 위해 LLM 기반 웹 에이전트에 월드 모델을 통합하는 연구를 제시합니다. WebArena 및 Mind2Web에서 수행된 광범위한 실험을 통해 연구진은 세계 모델을 통해 에이전트 작업의 결과를 시뮬레이션하여 정책 선택의 효율성을 입증했습니다. 또한 이 접근 방식을 사용하여 훈련된 세계 모델을 통해 WMA 웹 에이전트가 탐색 및 비용을 줄이면서 강력한 기준선보다 뛰어난 성능을 보이고 Mind2Web에서 최첨단 성능을 달성하는 것으로 나타났습니다. 세계 모델을 사용하여 LLM 기반 웹 에이전트를 강화함으로써 웹 탐색 분야의 미래 연구를 위한 견고한 기반을 구축합니다.
https://huggingface.co/papers/2410.13232
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 22일 오전 8:15