RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework
arXiv.org
RAGEval: 전문 분야 도메인 데이터에서 검색 증강 생성 시스템의 성능 평가 프레임워크
검색 증강 생성(RAG) 시스템은 대규모 언어 모델(LLM)의 환각 현상을 줄이는 데 효과적입니다. 기존 RAG 벤치마크는 주로 일반 지식에 대한 정확도를 평가하지만, 다양한 특정 전문 분야의 도메인 데이터에 대한 평가에는 한계가 있습니다. 이를 해결하기 위해 RAGEval이라는 프레임워크를 소개합니다. RAGEval은 시드 문서에서 스키마를 요약하고 다양한 문서를 생성하며, 이를 바탕으로 질문-답변 쌍을 구성합니다. 완성도, 환각, 비관련성이라는 세 가지 새로운 지표를 통해 LLM의 응답을 신중하게 평가합니다. RAGEval은 전문 분야의 도메인에서 RAG 모델을 벤치마킹하여, 기존 QA 데이터 세트에서 발생할 수 있는 지식 출처의 혼동을 피하고 LLM의 지식 사용 능력을 더 정확하게 평가할 수 있도록 합니다.
https://arxiv.org/abs/2408.01262
MMIU 벤치마크: LVLM의 다중 이미지 이해 성능 평가를 위한 광범위한 테스트베드
대규모 시각 언어 모델(LVLM)이 장면을 철저하고 미묘하게 이해하려면 여러 이미지를 처리할 수 있는 기능이 필수적입니다. 이를 평가하기 위해, 광범위한 멀티 이미지 작업에서 LVLM을 평가하도록 설계된 멀티모달 멀티 이미지 이해(MMIU) 벤치마크를 소개합니다. MMIU는 7가지 유형의 다중 이미지 관계, 52개 작업, 77,000개의 이미지, 11,000개의 객관식 문제로 구성되어 있습니다. 24개의 인기 있는 LVLM을 평가한 결과, 특히 공간 이해와 관련된 작업에서 다중 이미지 이해에 상당한 어려움이 있는 것으로 나타났습니다. 가장 진보된 모델인 GPT-4o조차 MMIU에서 55.7%의 정확도만 달성했습니다. 이 분석을 통해 주요 성능 격차와 한계를 파악하여 향후 모델 및 데이터 개선을 위한 귀중한 인사이트를 제공합니다. MMIU는 LVLM 연구 및 개발을 확장하여 정교한 멀티모달 멀티이미지 사용자 인터랙션을 실현하는 것을 목표로 합니다.
https://huggingface.co/papers/2408.02718
AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 지원하기 : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 8월 8일 오전 8:58
이
... 더 보기🎉 벤처기업 인증 완료! 🎉
... 더 보기