[0813] 모두에게 전하는 모두연 AI뉴스!

  • 멀티모달 딥리서치 에이전트 'WebWatcher'

알리바바 연구진이 시각-언어 통합 딥리서치 에이전트, WebWatcher를 공개했습니다. 시스템은 고품질 합성 멀티모달 궤적을 활용한 효율적인 콜드 스타트 훈련, 딥 추론을 위한 다양한 도구 활용, 강화학습을 통한 일반화 성능 향상 으로 구성됩니다. 핵심 혁신은 시각 검색, 텍스트 검색, 웹페이지 방문, 코드 인터프리터, OCR까지 5가지 외부 도구를 통합한 ReAct 스타일 다단계 추론 시스템입니다. 특히 GRPO(Group-Relative Policy Optimization) 알고리즘을 적용해 그룹 내 상대적 보상으로 정책을 최적화 했습니다. 평가를 위해 기존 BrowseComp의 복잡성을 시각 도메인으로 확장한 BrowseComp-VL 벤치마크 를 구축했습니다. 이 데이터셋은 엔티티 마스킹과 모호한 표현으로 단순 검색을 넘어선 추론 능력을 요구합니다. 실험 결과 WebWatcher-32B는 HLE-VL에서 13.6%, BrowseComp-VL 평균 27.0%, LiveVQA 58.7%, MMSearch 55.3%의 성능을 달성 했습니다. 특히 GPT-4o, Gemini-2.5-flash, Claude-3.7보다 일관되게 우수한 결과를 보였으며, 32회 시도(Pass@32)에서는 HLE 벤치마크 성공률이 41.9%까지 상승 했습니다. 연구팀은 "멀티모달 딥리서치 에이전트가 실제 문제 해결에서 자율성과 유연성, 심층 추론을 결합한 새로운 패러다임을 제시한다"고 밝혔습니다.


https://github.com/Alibaba-NLP/WebAgent


  • Matrix-3D, 단일 이미지로 3D 탐험 가능한 세계를 창조하다

칭화대학교 연구진이 발표한  단일 이미지나 텍스트 프롬프트로 탐험 가능한 3D 세계를 생성하는 새로운 프레임워크, 'Matrix-3D'를 제안했습니다. 이 기술은 조건부 비디오 생성과 파노라마 3D 재구성을 결합하여 기존 방식의 제한된 시야각과 공간적 범위를 극복했습니다. 연구진은 경로 안내 파노라마 비디오 확산 모델을 개발해 고품질의 기하학적으로 일관된 장면 비디오를 생성하고, 이를 3D 세계로 전환하기 위한 두 가지 재구성 방법, 피드포워드 방식의 대규모 파노라마 재구성 모델과, 다른 하나는 정확하고 상세한 3D 장면 재구성을 위한 최적화 기반 파이프라인을 제안했습니다. 연구진은 또한, 모델 훈련을 위해 11만 6천 개의 고품질 파노라마 비디오 시퀀스로 구성된 'Matrix-Pano' 데이터셋을 구축했습니다. Matrix-3D는 실험을 통해 파노라마 비디오 및 3D 세계 생성에서 SoTA 성능을 입증하며, 메타버스 등 다양한 분야에 활용될 가능성을 보여주었습니다.


https://matrix-3d.github.io/


실무 중심 AI 전문가 양성 과정 AI학교 아이펠 15기 : http://bit.ly/46SqcG4
경쟁력 있는 데이터 커리어를 만들고 싶다면? 데이터 사이언티스트 전문과정 6기 : http://bit.ly/4mICwNL

GitHub - Alibaba-NLP/WebAgent: 🌐 WebAgent for Information Seeking built by Tongyi Lab: WebWalker & WebDancer & WebSailor & WebShaper https://arxiv.org/abs/2507.15061 https://arxiv.org/pdf/2507.02592

GitHub

GitHub - Alibaba-NLP/WebAgent: 🌐 WebAgent for Information Seeking built by Tongyi Lab: WebWalker & WebDancer & WebSailor & WebShaper https://arxiv.org/abs/2507.15061 https://arxiv.org/pdf/2507.02592

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 8월 13일 오전 7:42

댓글 0