[0113]모두에게 전하는 모두연 AI뉴스!

* LlamaV-01: 눈으로 생각하는 AI, 시각적 추론의 새로운 지평을 열다 본 논문은 대규모 언어 모델(LLM)의 단계별 시각적 추론 능력을 향상시키기 위한 종합적인 프레임워크를 제안합니다. 이를 위해, 복잡한 시각적 인식부터 과학적 추론까지 8가지 범주에 걸쳐 4,000개 이상의 추론 단계로 구성된 VRC-Bench를 소개합니다. 이 벤치마크는 LLM이 정확하고 해석 가능한 시각적 추론을 수행하는 능력을 평가하도록 설계되었습니다. 또한, 정확성과 논리적 일관성을 강조하며 개별 단계별 추론 품질을 평가하는 새로운 지표를 제안합니다. 마지막으로, 점진적인 기술 습득과 문제 해결을 위해 작업을 체계적으로 구성하는 다단계 커리큘럼 학습 접근 방식을 사용하여 훈련된 새로운 다중 모드 시각적 추론 모델인 LlamaV-01을 제시합니다. LlamaV-01은 기존 오픈 소스 모델을 능가하고 폐쇄 소스 독점 모델과 경쟁력 있는 성능을 보이며, 6개 벤치마크에서 평균 67.3점을 달성하고 추론 스케일링 속도를 5배 향상시켰습니다. https://huggingface.co/papers/2501.06186 * VideoRAG: 비디오 이해의 새로운 지평을 여는 AI, 멀티모달 RAG 프레임워크 이 문서는 VideoRAG라는 새로운 프레임워크를 소개합니다. VideoRAG는 쿼리와 관련된 비디오를 대규모 비디오 코퍼스에서 검색하고, 검색된 비디오의 시각 및 텍스트 정보를 통합하여 응답을 생성하는 방식으로 작동합니다. 이를 위해 쿼리와 비디오의 관련성을 계산하고, 관련성이 높은 상위 k개의 비디오를 검색합니다. 검색된 비디오의 프레임과 텍스트(예: 자막)를 연결하여 입력으로 사용하고, LVLM(Large Video Language Model)을 통해 쿼리와 비디오의 multimodal richness를 고려한 응답을 생성합니다. 또한, 텍스트 정보가 없는 비디오를 위해 자동 음성 인식 기술을 사용하여 텍스트 transcripts를 생성하는 방법을 제안합니다. VideoRAG는 기존의 텍스트 기반 RAG 모델들(NAÏVE, TEXTRAG (BM25), TEXTRAG (DPR), TEXTVIDEORAG)보다 우수한 성능을 보였습니다. 특히, 비디오의 visual feature만 사용한 경우(VIDEORAG-V)와 visual feature와 텍스트 정보를 함께 사용한 경우(VIDEORAG-VT)가 가장 좋은 성능을 보였습니다. 이는 비디오 정보가 RAG 성능 향상에 중요한 역할을 하며, visual feature와 텍스트 정보가 상호 보완적으로 작용하여 더 나은 결과를 얻을 수 있음을 보여줍니다. https://huggingface.co/papers/2501.05874

[0113]모두에게 전하는 모두연 AI뉴스!

알림