Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0808]모두에게 전하는 모두연 AI뉴스!

RAGEval: 전문 분야 도메인 데이터에서 검색 증강 생성 시스템의 성능 평가 프레임워크

검색 증강 생성(RAG) 시스템은 대규모 언어 모델(LLM)의 환각 현상을 줄이는 데 효과적입니다. 기존 RAG 벤치마크는 주로 일반 지식에 대한 정확도를 평가하지만, 다양한 특정 전문 분야의 도메인 데이터에 대한 평가에는 한계가 있습니다. 이를 해결하기 위해 RAGEval이라는 프레임워크를 소개합니다. RAGEval은 시드 문서에서 스키마를 요약하고 다양한 문서를 생성하며, 이를 바탕으로 질문-답변 쌍을 구성합니다. 완성도, 환각, 비관련성이라는 세 가지 새로운 지표를 통해 LLM의 응답을 신중하게 평가합니다. RAGEval은 전문 분야의 도메인에서 RAG 모델을 벤치마킹하여, 기존 QA 데이터 세트에서 발생할 수 있는 지식 출처의 혼동을 피하고 LLM의 지식 사용 능력을 더 정확하게 평가할 수 있도록 합니다.

https://arxiv.org/abs/2408.01262

MMIU 벤치마크: LVLM의 다중 이미지 이해 성능 평가를 위한 광범위한 테스트베드

대규모 시각 언어 모델(LVLM)이 장면을 철저하고 미묘하게 이해하려면 여러 이미지를 처리할 수 있는 기능이 필수적입니다. 이를 평가하기 위해, 광범위한 멀티 이미지 작업에서 LVLM을 평가하도록 설계된 멀티모달 멀티 이미지 이해(MMIU) 벤치마크를 소개합니다. MMIU는 7가지 유형의 다중 이미지 관계, 52개 작업, 77,000개의 이미지, 11,000개의 객관식 문제로 구성되어 있습니다. 24개의 인기 있는 LVLM을 평가한 결과, 특히 공간 이해와 관련된 작업에서 다중 이미지 이해에 상당한 어려움이 있는 것으로 나타났습니다. 가장 진보된 모델인 GPT-4o조차 MMIU에서 55.7%의 정확도만 달성했습니다. 이 분석을 통해 주요 성능 격차와 한계를 파악하여 향후 모델 및 데이터 개선을 위한 귀중한 인사이트를 제공합니다. MMIU는 LVLM 연구 및 개발을 확장하여 정교한 멀티모달 멀티이미지 사용자 인터랙션을 실현하는 것을 목표로 합니다.

https://huggingface.co/papers/2408.02718

AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 지원하기 : https://bit.ly/3YBFXNf

RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework

arXiv.org

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 8월 8일 오전 8:58

조회 104

함께 읽은 게시물

골빈해커

Chief Maker

2일 전

사람들이 요즘 AI, ChatGPT에게 의존하여 사고력이 저하되고 있다는 이야기가 많이 나온다.

두뇌 발달에 안 좋으니, 80년대에 계산기 쓰지마라, 90년대에 컴퓨터 쓰지마라, 2000년대에 엑셀 팡션 쓰지마라, 2010년에 스마트폰 쓰지마라는 말과 같다는 생각이다.

•

저장 3 • 조회 1,483

골빈해커

Chief Maker

2일 전

오늘의 탐라는 “ChatGPT 쓰셨던데 그러고도 개발자입니까?” 인가..

오픈소스 쓰셨던데 그러고도 개발자입니까?

www.haruair.com

조회 1,102

박성국

테크니컬 아티스트

2일 전

신입 개발자를 위한 조언 10가지

저장 1 • 조회 258

골빈해커

Chief Maker

2일 전

'독자 AI 파운데이션 모델 프로젝트' 선정 기업

- 네이버클라우드

- 업스테이지

조회 1,181

비슷한 게시물

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0730]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0805]모두에게 전하는 모두연 AI뉴스!

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

datarichard 블로그 페이지를 만들었습니다.

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0306]모두에게 전하는 모두연 AI뉴스!

골빈해커 Chief Maker

OpenAI가 AI 에이전트의 머신러닝 엔지니어링 능력을 평가하는 MLE-bench를 발표했습니다.

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0711]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

골빈해커 Chief Maker

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코

장홍석 스페이스오디티 부대표/CPO

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

Arawn Park Senior Engineer & Engineering Lead

자바 25를 사용해야 하는 이유

석민 커리어 코치

효과적인 경력 기술 가이드

레드버스백맨 리서처 앤 라이터

⟪통계청 2024년 생활시간조사로 본 7가지 핵심 데이터⟫

psmon 웹노리라이터

PRD분석 AI툴

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

📈 성과지표(KPI), 이렇게 설정하고 관리합니다

전민우 백엔드개발자

기능 정의의 중요성

달레 Apollo GraphQL Software Engineer

📊 스택 오버플로우 2025년 개발자 설문조사 결과 💡

박세호 피저블 랩 프로덕트 매니저

실제로 동작하는 PRD란

[0808]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

신입 개발자를 위한 조언 10가지

비슷한 게시물

주간 인기 TOP 10

추천 프로필