Runway Research | Introducing Runway Gen-4
runwayml.com
텍스트와 이미지에서 영화를 만들다: RunwayML Gen-4의 마법
RunwayML에서 공개한 Gen-4는 최신 AI 동영상 생성 모델입니다. 이 모델은 이전 버전(Gen-3 Alpha)보다 크게 향상되어, 특히 영상 내 캐릭터, 사물, 배경 등의 일관성을 유지하는 능력과 사실적인 움직임 구현에 중점을 두었습니다. 텍스트나 이미지를 기반으로 영상을 만들 수 있으며, 시각적 참조 자료를 활용해 특정 스타일이나 분위기를 유지하며 다양한 각도와 구도의 장면을 생성할 수 있습니다. 이를 통해 더욱 정교하고 통제 가능한 영상 제작이 가능해졌습니다. 현재 유료 구독자에게 순차적으로 공개되고 있습니다.
https://runwayml.com/research/introducing-runway-gen-4
MoCha: 목소리와 텍스트만으로 영화 속 캐릭터를 현실로
MoCha는 음성과 텍스트 입력만으로 영화 수준의 말하는 캐릭터 비디오를 생성하는 최초의 모델입니다. 기존 토킹 헤드 모델과 달리 얼굴 영역을 넘어선 전신 및 다중 캐릭터 생성을 목표로 합니다. 'speech-video window attention' 메커니즘으로 음성과 비디오 토큰을 정렬하여 입 모양 동기화를 개선하고, 음성 및 텍스트 라벨 데이터를 함께 사용하는 공동 학습 전략으로 다양한 캐릭터 동작에 대한 일반화 성능을 높였습니다. 또한, 구조화된 프롬프트를 통해 AI 캐릭터 간의 상황 인식 기반 대화 생성을 지원합니다. MoCha는 평가에서 우수한 현실감, 표현력, 제어 가능성을 보여주었습니다.
https://huggingface.co/papers/2503.23307
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 1일 오전 7:38