[0402]모두에게 전하는 모두연 AI뉴스!

  • Any2Caption: '어떤' 입력이든 '정교한' 비디오 가이드라인으로 변환하다

본 논문은 현재 비디오 생성 모델이 텍스트, 이미지, 모션, 카메라 포즈 등 다양한 사용자 입력을 정확히 해석하는 데 어려움을 겪어 제어 가능성이 제한되는 문제를 지적합니다. 이를 해결하기 위해 'Any2Caption'이라는 새로운 프레임워크를 제안합니다. 이 프레임워크는 조건 해석 단계와 비디오 합성 단계를 분리하여, 최신 멀티모달 대형 언어 모델(MLLM)을 활용해 다양한 입력을 해석하고 이를 상세하고 구조화된 캡션으로 변환합니다. 이 캡션은 기존 비디오 생성 모델에 더 나은 가이드라인을 제공하여 제어 가능성과 비디오 품질을 향상시킵니다. 또한, 337K 인스턴스로 구성된 대규모 데이터셋 'Any2CapIns'를 구축하여 모델 훈련에 사용했으며, 실험 결과 다양한 조건에서 비디오 생성의 제어 가능성과 품질이 크게 개선되었음을 보여줍니다.


https://huggingface.co/papers/2503.24379


  • 데이터 효율성과 OOD 성능 UP: MLLM 영상 이해, 강화학습의 재발견

본 논문은 멀티모달 대형 언어 모델(MLLM)의 비디오 이해 능력 향상을 위한 강화학습(RL) 효과를 탐구합니다. 이를 위해 지각과 추론을 모두 요구하는 비디오 이해 작업에서 MLLM 후처리 학습법 평가 벤치마크 'SEED-Bench-R1'을 제안합니다. 이 벤치마크는 실제 영상 기반의 복잡한 과제와 대규모 학습 데이터셋, 그리고 분포 내/외 일반화 성능 평가를 위한 3단계 검증 구조를 갖춥니다. Qwen2-VL 모델 기반 실험에서 RL(GRPO 알고리즘 사용)은 지도 미세 조정(SFT) 대비 데이터 효율성과 특히 분포 외(OOD) 시나리오에서의 성능 면에서 우수함을 보였습니다. 분석 결과, RL은 시각적 인식 능력을 강화하지만, 생성된 추론 과정의 논리적 일관성은 다소 부족할 수 있음을 확인했습니다.


https://huggingface.co/papers/2503.24376

Paper page - Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

huggingface.co

Paper page - Any2Caption:Interpreting Any Condition to Caption for Controllable Video Generation

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 2일 오전 9:18

댓글 0