[1022]모두에게 전하는 모두연 AI뉴스!

  • CompassJudger-1: LLM 평가의 새로운 지평을 여는 올인원 심사 도구

이 보고서는 대규모 언어 모델(LLM)의 효율적이고 정확한 평가를 위한 올인원 심사 LLM인 CompassJudger-1을 소개합니다. CompassJudger-1은 보상 모델로서 단일 점수화 및 두 모델 비교를 수행하고, 지정된 형식에 따라 평가를 수행하며, 비평을 생성하고, 일반 LLM처럼 다양한 작업을 실행할 수 있습니다. 또한 다양한 주관적 평가 작업을 포함하고 광범위한 주제를 다루는 새로운 벤치마크인 JudgerBench를 구축하여 통합된 설정에서 다양한 심사 모델의 평가 기능을 평가합니다. CompassJudger-1은 다양한 요구 사항에 맞게 조정할 수 있는 유연성을 유지하면서 다양한 평가 작업을 위한 포괄적인 솔루션을 제공합니다. CompassJudger와 JudgerBench는 모두 공개되어 연구 커뮤니티에서 사용할 수 있습니다.


https://huggingface.co/papers/2410.16256


  • LLM 에이전트, 웹 탐색의 한계를 넘다: 월드 모델의 힘!

이 논문에서는 웹 탐색에서 환경 역학을 이해하는 최첨단 대규모 언어 모델(LLM)의 한계를 해결하기 위해 LLM 기반 웹 에이전트에 월드 모델을 통합하는 연구를 제시합니다. WebArena 및 Mind2Web에서 수행된 광범위한 실험을 통해 연구진은 세계 모델을 통해 에이전트 작업의 결과를 시뮬레이션하여 정책 선택의 효율성을 입증했습니다. 또한 이 접근 방식을 사용하여 훈련된 세계 모델을 통해 WMA 웹 에이전트가 탐색 및 비용을 줄이면서 강력한 기준선보다 뛰어난 성능을 보이고 Mind2Web에서 최첨단 성능을 달성하는 것으로 나타났습니다. 세계 모델을 사용하여 LLM 기반 웹 에이전트를 강화함으로써 웹 탐색 분야의 미래 연구를 위한 견고한 기반을 구축합니다.


https://huggingface.co/papers/2410.13232


[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th

Paper page - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

huggingface.co

Paper page - CompassJudger-1: All-in-one Judge Model Helps Model Evaluation and Evolution

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 22일 오전 8:15

댓글 0

    함께 읽은 게시물

    제가 리드하고 있는 조직(당근마켓 커뮤니티실)에서 백엔드 엔지니어를 채용 중이에요.


    커뮤니티실에는 동네 이웃들의 이야기와 정보를 공유하는 동네생활팀, 이웃 간의 취미와 관심사를 연결하는 모임팀, 그리고 아파트 단지 생활을 더 편리하고 즐겁게 만들어 줄 단지팀이 있어요. 지금 내 동네에서 일어나고 있는 일들을 더 쉽게 즐기고 공유할 방법들을 찾는 일이라면 무엇이든 도전하여 실행에 옮겨요. 만드는 사람이 불편할수록 쓰는 사람은 편하다는 믿음으로 도전적인 문제를 풀어나갈 분과 함께하고자 해요.

    ... 더 보기

    조회 259


    고난이 사람을 키운다

    태초에 모든 동물은 바다에서 살았다. 바다가 동물이 살기 좋은 환경이었던 것이다. 그런데, 동물 사이에 먹이 사슬이 형성되었고, 힘이 없는 동물들은 척박한 곳으로 밀려났다. 그곳이 바로 강이다. 처음에는 강에서 살기 힘들었지만, 성공적으로 적응하는 동물들이 생겨났고, 그래서 강에도 생태계가 형성되었다.

    ... 더 보기