[0818] 모두에게 전하는 모두연 AI뉴스!

  • 알리바바, 오픈소스 멀티모달 AI 'Ovis 2.5' 공개…시각 인식 능력 대폭 강화

알리바바의 AI 연구팀이 최신 멀티모달 대규모 언어모델(MLLM) 'Ovis 2.5'를 오픈소스로 공개했습니다. Ovis 2.5는 9B와 2B 두 가지 파라미터 버전으로 출시되었습니다. Ovis 2.5의 핵심 혁신은 네이티브 해상도 비전 트랜스포머(NaViT) 기술입니다. 기존 모델들이 이미지를 강제로 리사이징하거나 타일링하여 세부 정보를 손실시켰던 것과 달리, NaViT는 원본 해상도 그대로 이미지를 처리해 복잡한 차트나 과학 도표도 정확하게 인식할 수 있습니다. 또한 '사고 모드(thinking mode)'라는 선택적 기능을 통해 단계별 추론 과정을 거치며 더욱 정확한 답변을 제공합니다. 이는 수학 문제 해결이나 과학적 질문 답변과 같은 복잡한 작업에서 특히 유용합니다.
성능 면에서 Ovis 2.5-9B는 OpenCompass 멀티모달 리더보드에서 78.3점을 기록해 40B 이하 오픈소스 모델 중 최고 성능을 달성했습니다. 2B 버전도 73.9점으로 경량 모델 중 새로운 기준을 제시했습니다. 특히 STEM 추론, OCR, 차트 분석, 비디오 이해 등 전문 영역에서 탁월한 성능을 보였습니다. 훈련 효율성도 크게 개선되어 기존 대비 3-4배 빠른 처리 속도를 실현했으며, 2B 경량 버전은 모바일 기기나 엣지 디바이스에서도 고품질 멀티모달 이해가 가능하도록 설계되었습니다.


https://huggingface.co/AIDC-AI/Ovis2.5-9B


  • ComoRAG: 인지 과학 기반 장편 서사 추론 혁신

최근 대규모 언어 모델(LLM)의 장문 컨텍스트 처리 능력이 크게 향상되었지만, 복잡한 플롯과 인물 관계가 얽혀있는 장편 소설이나 이야기를 이해하는 것은 여전히 도전 과제로 남아있습니다. 이를 위해 텐센트 WeChat AI 연구팀과 중국남방과학기술대학이 ComoRAG를 소개하였습니다. 기존의 검색 증강 생성(RAG) 방법들은 단일 단계 검색 과정으로 인해 장거리 맥락 내의 상호 연결된 관계를 포착하는 데 어려움을 겪었습니다. ComoRAG는 인간의 전전두엽 피질(PFC)의 메타인지 조절 과정에서 영감을 받아, 서사 추론을 일회성 과정이 아닌 새로운 증거 획득과 과거 지식 통합 간의 동적이고 진화하는 상호작용으로 접근합니다. 이 시스템의 핵심은 동적 메모리 작업 공간을 활용한 반복적 추론 사이클입니다. 추론 난관에 직면했을 때, ComoRAG는 새로운 탐색 경로를 위한 질의를 생성하고, 검색된 증거를 전역 메모리 풀에 통합하여 일관된 맥락을 구축합니다. 연구팀은 20만 토큰 이상의 4개 장문 서사 벤치마크에서 실험을 수행했으며, ComoRAG가 기존 최강 베이스라인 대비 최대 11%의 일관된 상대적 성능 향상을 달성했다고 보고했습니다. 특히 전역적 이해가 필요한 복잡한 질의에서 뛰어난 성능을 보여, 상태 유지 추론을 향한 인지적으로 동기 부여된 새로운 패러다임을 제시합니다.


https://github.com/EternityJune25/ComoRAG


실무 중심 AI 전문가 양성 과정 AI학교 아이펠 15기 : http://bit.ly/46SqcG4
경쟁력 있는 데이터 커리어를 만들고 싶다면? 데이터 사이언티스트 전문과정 6기 : http://bit.ly/4mICwNL

AIDC-AI/Ovis2.5-9B · Hugging Face

huggingface.co

AIDC-AI/Ovis2.5-9B · Hugging Face

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 8월 19일 오전 6:51

댓글 0