Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[1022]모두에게 전하는 모두연 AI뉴스!

CompassJudger-1: LLM 평가의 새로운 지평을 여는 올인원 심사 도구

이 보고서는 대규모 언어 모델(LLM)의 효율적이고 정확한 평가를 위한 올인원 심사 LLM인 CompassJudger-1을 소개합니다. CompassJudger-1은 보상 모델로서 단일 점수화 및 두 모델 비교를 수행하고, 지정된 형식에 따라 평가를 수행하며, 비평을 생성하고, 일반 LLM처럼 다양한 작업을 실행할 수 있습니다. 또한 다양한 주관적 평가 작업을 포함하고 광범위한 주제를 다루는 새로운 벤치마크인 JudgerBench를 구축하여 통합된 설정에서 다양한 심사 모델의 평가 기능을 평가합니다. CompassJudger-1은 다양한 요구 사항에 맞게 조정할 수 있는 유연성을 유지하면서 다양한 평가 작업을 위한 포괄적인 솔루션을 제공합니다. CompassJudger와 JudgerBench는 모두 공개되어 연구 커뮤니티에서 사용할 수 있습니다.

https://huggingface.co/papers/2410.16256

LLM 에이전트, 웹 탐색의 한계를 넘다: 월드 모델의 힘!

이 논문에서는 웹 탐색에서 환경 역학을 이해하는 최첨단 대규모 언어 모델(LLM)의 한계를 해결하기 위해 LLM 기반 웹 에이전트에 월드 모델을 통합하는 연구를 제시합니다. WebArena 및 Mind2Web에서 수행된 광범위한 실험을 통해 연구진은 세계 모델을 통해 에이전트 작업의 결과를 시뮬레이션하여 정책 선택의 효율성을 입증했습니다. 또한 이 접근 방식을 사용하여 훈련된 세계 모델을 통해 WMA 웹 에이전트가 탐색 및 비용을 줄이면서 강력한 기준선보다 뛰어난 성능을 보이고 Mind2Web에서 최첨단 성능을 달성하는 것으로 나타났습니다. 세계 모델을 사용하여 LLM 기반 웹 에이전트를 강화함으로써 웹 탐색 분야의 미래 연구를 위한 견고한 기반을 구축합니다.

https://huggingface.co/papers/2410.13232

[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th

Paper page - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

huggingface.co

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 10월 22일 오전 8:15

조회 105

함께 읽은 게시물

ICT콤플렉스

하루 전

생성형 AI 패러다임 전환과 스타트업 전략 네트워킹 모집

골빈해커

Chief Maker

5일 전

예상대로 OpenAI에서 GPT-5를 발표했습니다.

댓글 1 • 저장 4 • 조회 1,913

비슷한 게시물

이성규 스닙팟 CEO & Founder

AI 가 스스로 연구하고 논문을 쓰는 sakana.ai 입니다. 근래 AI 에서 가장 중요한 논문이라고 해도 과언이 아닌 트랜스포머 모델 논문 저자가 창업한 Sakana AI 이니

골빈해커 Chief Maker

📝 “환각”이 아니라 “헛소리”다

골빈해커 Chief Maker

LLM은 지난 2년간, 성능은 원숭이 수준에서 인간 수준으로 높아졌고 가격은 400배 저렴해졌으며, 추론 속도는 지난 6년간 (이론적으로)3,000배 빨라졌다.

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0904]모두에게 전하는 모두연 AI뉴스!

안형우 17년차 웹 개발자(2009~)

AI의 개소리를 “환각”이라고 칭하게 되면 나머지 맞는 말은 “정확한 정보 전달”로 이해하게 됩니다.

골빈해커 Chief Maker

LLM 정성 평가의 실질적인 기준 역할을 하고 있는 Chatbot Arena도 이제는 거의 무의미 해 진 것 같네요. LLM의 성능이 너무 상향 평준화 되어서 “일반” 인간의 평가

주간 인기 TOP 10

골빈해커 Chief Maker

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?”

김의중 프론트엔드 개발자

Claude Code 실전 가이드: AI 네이티브 개발자로 가는

Arawn Park Senior Engineer & Engineering Lead

넷플릭스는 왜 WebFlux를 사용하지 않을까?

psmon 블룸에이아이 서버 엔지니어

카프카를 우아하게 사용하기 -코틀린편

달레 Apollo GraphQL Software Engineer

알아 알아 알아! 🤣

장홍석 스페이스오디티 부대표/CPO

< 몇 번 졌는지는 중요하지 않다, 인생은 결국 득실차다 >

황경찬(Boaz) P.E.C CEO

"AI가 코드를 짜는 시대, 개발자의 가치는 무엇일까요?" 최근

정종윤 네이버 프론트엔드 개발자

👻 클라이언트에서 안전한 소셜 로그인 구현을 위한 OIDC와 PK

박승규 카카오계열사에서 이것저것 만드는 개발자

책이 출판되기 전 마지막 교정을 하고 있는데... GPT5가 출시

석민 커리어 코치

백엔드 개발자 이력서 고민

[1022]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

생성형 AI 패러다임 전환과 스타트업 전략 네트워킹 모집

비슷한 게시물

주간 인기 TOP 10

추천 프로필