[0311]모두에게 전하는 모두연 AI뉴스!

* 자동화된 영화 제작 기술의 혁신, 'MovieAgent' 싱가포르국립대학교의 Show Lab 연구진이 기존 장편 영화 생성 프레임워크의 한계를 극복하는 혁신적인 기술 'MovieAgent'를 개발했습니다. 기존 시스템은 스토리라인, 장면 구성, 촬영 기법, 캐릭터 상호작용 등에 대한 수동 입력을 요구하여 높은 비용과 비효율성을 초래했습니다. 이를 극복하고자 연구진은 다중 에이전트의 Chain of Thought Planning 을 통해 자동화된 영화/장편 비디오 생성의 패러다임을 정의하고 탐색합니다. 주어진 대본과 캐릭터 뱅크를 바탕으로, 'MovieAgent'는 캐릭터 일관성, 동기화된 자막과 안정적인 오디오를 보장한, 일관된 내러티브를 가진 다중 장면, 다중 샷 장편 비디오를 생성해내었습니다. 이 뿐 아니라, 계층적 사고 연쇄 기반 추론 프로세스를 통해 장면 구조, 카메라 설정, 영화 촬영 기법을 자동으로 구성합니다. 감독, 각본가, 스토리보드 아티스트, 로케이션 매니저 역할을 시뮬레이션하는 여러 LLM(대규모 언어 모델) 에이전트를 활용함으로써 제작 과정을 간소화하고, 인간의 노력을 크게 줄입니다. 실험 결과, 'MovieAgent'는 대본 충실도, 캐릭터 일관성, 내러티브 일관성 측면에서 기존 방법론 대비 최고 성능을 달성했습니다. https://weijiawu.github.io/MovieAgent/RL * 추론 기법을 MLLM에 적용한 모델 MM-Eureka 상하이 AI 연구소와 홍콩대학교 등 공동 연구진이 대규모 규칙 기반 강화학습(RL)을 멀티모달 추론으로 성공적으로 확장한 'MM-Eureka' 모델을 발표했습니다. 규칙 기반 강화학습은 텍스트 영역에서 대규모 언어 모델(LLM)의 추론 능력 향상에 큰 성공을 거두었으나, 지금까지 멀티모달 환경에 적용하는 것은 도전적인 과제였습니다. 이 연구는 DeepSeek-R1과 같은 텍스트 기반 강화학습 시스템의 핵심 특성을 멀티모달 공간에서 재현했습니다. 여기에는 정확도 보상과 응답 길이의 꾸준한 증가, 그리고 자기 성찰 행동의 출현이 포함됩니다. 특히 주목할 만한 점은 지도 학습 미세 조정 없이도 규칙 기반 강화학습을 통해 명령어 조정된 모델과 사전 훈련된 모델 모두 강력한 멀티모달 추론 능력을 개발할 수 있음을 입증했다는 것입니다. 이 방식은 대안적 접근법에 비해 우수한 데이터 효율성을 보여주었습니다. 연구팀은 이 분야의 추가 연구를 촉진하기 위해 모든 코드, 모델, 데이터 등을 포함한 완전한 파이프라인을 오픈소스로 공개했습니다. https://github.com/ModalMinds/MM-EUREKA [마감임박] 6개월 집중 AI 리서처 양성과정 아이펠 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS 데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A

[0311]모두에게 전하는 모두연 AI뉴스!

알림