[0808]모두에게 전하는 모두연 AI뉴스!

  • RAGEval: 전문 분야 도메인 데이터에서 검색 증강 생성 시스템의 성능 평가 프레임워크

검색 증강 생성(RAG) 시스템은 대규모 언어 모델(LLM)의 환각 현상을 줄이는 데 효과적입니다. 기존 RAG 벤치마크는 주로 일반 지식에 대한 정확도를 평가하지만, 다양한 특정 전문 분야의 도메인 데이터에 대한 평가에는 한계가 있습니다. 이를 해결하기 위해 RAGEval이라는 프레임워크를 소개합니다. RAGEval은 시드 문서에서 스키마를 요약하고 다양한 문서를 생성하며, 이를 바탕으로 질문-답변 쌍을 구성합니다. 완성도, 환각, 비관련성이라는 세 가지 새로운 지표를 통해 LLM의 응답을 신중하게 평가합니다. RAGEval은 전문 분야의 도메인에서 RAG 모델을 벤치마킹하여, 기존 QA 데이터 세트에서 발생할 수 있는 지식 출처의 혼동을 피하고 LLM의 지식 사용 능력을 더 정확하게 평가할 수 있도록 합니다.


https://arxiv.org/abs/2408.01262


  • MMIU 벤치마크: LVLM의 다중 이미지 이해 성능 평가를 위한 광범위한 테스트베드

대규모 시각 언어 모델(LVLM)이 장면을 철저하고 미묘하게 이해하려면 여러 이미지를 처리할 수 있는 기능이 필수적입니다. 이를 평가하기 위해, 광범위한 멀티 이미지 작업에서 LVLM을 평가하도록 설계된 멀티모달 멀티 이미지 이해(MMIU) 벤치마크를 소개합니다. MMIU는 7가지 유형의 다중 이미지 관계, 52개 작업, 77,000개의 이미지, 11,000개의 객관식 문제로 구성되어 있습니다. 24개의 인기 있는 LVLM을 평가한 결과, 특히 공간 이해와 관련된 작업에서 다중 이미지 이해에 상당한 어려움이 있는 것으로 나타났습니다. 가장 진보된 모델인 GPT-4o조차 MMIU에서 55.7%의 정확도만 달성했습니다. 이 분석을 통해 주요 성능 격차와 한계를 파악하여 향후 모델 및 데이터 개선을 위한 귀중한 인사이트를 제공합니다. MMIU는 LVLM 연구 및 개발을 확장하여 정교한 멀티모달 멀티이미지 사용자 인터랙션을 실현하는 것을 목표로 합니다.


https://huggingface.co/papers/2408.02718


AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 지원하기 : https://bit.ly/3YBFXNf

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

arXiv.org

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 8월 8일 오전 8:58

댓글 0

    함께 읽은 게시물


    🎉 벤처기업 인증 완료! 🎉

    ... 더 보기

    플레이모어와 함께할 동료를 찾습니다 | Notion

    playmoreai on Notion

    플레이모어와 함께할 동료를 찾습니다 | Notion

    [데이터 분석할 때 ??? ??? ??은 꼭 필요해요!]

    실제 업무에 사용하는 데이터는 매우 복잡하고 잘 정리되지 않은 경우가 많습니다. 그리고 불필요한 데이터도 섞여있기 마련이죠. 따라서 실무에 사용할 데이터를 분석하기에 용이한 쓸모있는 상태로 만들어주는 단계가 필요합니다. 이때 데이터 분석가는 EDA를 사용합니다. EDA 는 Exploratory Data Analysis 의 줄임말로 탐색적 데이터 분석이라고 합니다. EDA는 어떻게 데이터를 쓸모있게 만들까라는 고민을 도와주는 단계인 것이죠. 그럼 데이터 분석가가 EDA를 하지 않았을때 생길수 있는... 더 보기

     • 

    저장 3 • 조회 1,485