[1018]모두에게 전하는 모두연 AI뉴스!

  • 웹의 힘을 빌려 AI를 키우다: MultiUI 데이터셋으로 텍스트 기반 시각적 이해 향상

이 논문에서는 텍스트가 풍부한 시각적 이해를 위해 웹페이지 UI를 활용하는 방법을 제안합니다. 텍스트 기반 LLM을 사용하여 웹페이지 UI에서 일반적인 다중 모달 명령어를 합성하고, UI 스크린샷과 쌍을 이루어 다중 모달 모델을 학습합니다. 이를 위해 100만 개의 웹사이트에서 730만 개의 샘플을 포함하는 MultiUI 데이터셋을 소개합니다. MultiUI에서 학습된 모델은 웹 UI 작업에서 뛰어난 성능을 보일 뿐만 아니라 문서 이해, OCR 및 차트 해석과 같은 웹 UI 이외의 작업에도 일반화됩니다. 이러한 결과는 다양한 시나리오에서 텍스트가 풍부한 시각적 이해를 발전시키기 위한 웹 UI 데이터의 광범위한 적용 가능성을 강조합니다.


https://huggingface.co/papers/2410.13824


  • MMED-RAG: 의료 AI, 진단의 정확성을 높이다!

이 논문에서는 의료 영상 언어 모델의 사실성을 향상시키기 위한 다중 모달 RAG 시스템인 MMED-RAG를 제안합니다. MMED-RAG는 도메인 인식 검색 메커니즘, 검색된 컨텍스트 선택을 위한 적응적 보정 방법, 사실적 선호도를 개선하기 위한 RAG 기반 선호도 미세 조정 전략을 포함합니다. 이러한 구성 요소는 RAG 프로세스를 보다 일반적이고 안정적으로 만들어 검색된 컨텍스트를 도입할 때 정렬을 개선합니다. 방사선, 안과, 병리학과 관련된 5개의 의료 데이터 세트에 대한 실험 결과는 MMED-RAG가 의료 VQA 및 보고서 생성 작업에서 Med-LVLM의 사실적 정확도를 크게 향상시킬 수 있음을 보여줍니다.


https://huggingface.co/papers/2410.13085


[마감임박!] AI개발자 과정! 입문자에서 전공자까지! AI학교 아이펠 10기 합류 : https://bit.ly/3Y0ZO7Q

Paper page - Harnessing Webpage UIs for Text-Rich Visual Understanding

huggingface.co

Paper page - Harnessing Webpage UIs for Text-Rich Visual Understanding

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 10월 18일 오전 7:18

댓글 0