Paper page - Paper2Poster: Towards Multimodal Poster Automation from Scientific Papers
huggingface.co
논문을 포스터로 자동 변환하는 'Paper2Poster' 공개
과학적 내용을 시각적으로 요약하는 학술 포스터 제작의 어려움을 해결하기 위해, 논문-포스터 쌍으로 구성된 최초의 벤치마크 및 평가 제품군과 함께 'Paper2Poster'가 공개되었습니다. 이 시스템은 (i) 시각적 품질, (ii) 텍스트 일관성, (iii) VLM 기반 미학 및 정보성, (iv) 생성된 퀴즈를 통한 핵심 내용 전달 능력으로 결과를 평가합니다. Paper2Poster는 논문을 구조화된 자산 라이브러리로 분석하는 파서, 텍스트-시각 쌍을 이진 트리 레이아웃으로 정렬하는 플래너, VLM 피드백을 통해 각 패널을 개선하는 페인터-코멘터 루프로 구성된 하향식 다중 에이전트 파이프라인 'PosterAgent'를 제안합니다.
https://huggingface.co/papers/2505.21497
MLLM의 복잡한 영상 추론 능력 평가, Video-Holmes 공개
최근 다중 모드 대형 언어 모델(MLLM)은 놀라운 발전을 이루었지만, 복잡한 영상 추론 능력은 아직 미흡합니다. 이를 해결하기 위해 'Video-Holmes'라는 새로운 벤치마크가 공개되었습니다. Video-Holmes는 복잡한 단서 연결과 적극적인 정보 탐색을 요구하는 1,200개의 고품질 질문-답변 쌍으로 구성되어, 모델이 셜록 홈즈처럼 추론하도록 유도합니다. 실험 결과, 현재 MLLM은 복잡한 영상 추론에 어려움을 겪으며, 특히 핵심 단서 식별, 적극적 정보 탐색, 장기적 관계 이해 능력이 부족한 것으로 나타났습니다. 이는 향후 MLLM 개발에 중요한 방향을 제시합니다.
https://huggingface.co/papers/2505.21374
AI 전문가로 가는 최적의 여정, 인공지능학교 아이펠 14기 모집중 : https://aiffel.io/
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 5월 28일 오전 6:58