Paper page - MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
huggingface.co
MarDini: 마스크 쓴 화가, 시간의 캔버스에 영상을 그리다
이 논문에서는 마스크된 자기회귀(MAR)와 확산 모델(DM)의 장점을 결합한 새로운 비디오 생성 모델인 MarDini를 소개합니다. MAR은 시간적 계획을 처리하고 DM은 비대칭 네트워크 설계에서 공간 생성에 중점을 둡니다. 즉, 매개변수의 대부분을 포함하는 MAR 기반 계획 모델은 저해상도 입력을 사용하여 각 마스크된 프레임에 대한 계획 신호를 생성하고, 경량 생성 모델은 이러한 신호를 사용하여 확산 노이즈 제거를 통해 고해상도 프레임을 생성합니다. MarDini의 MAR을 사용하면 모든 프레임 위치에서 원하는 수의 마스크된 프레임을 기반으로 비디오를 생성할 수 있습니다. 단일 모델로 비디오 보간(예: 중간 프레임 마스크), 이미지-비디오 생성(예: 두 번째 프레임부터 마스크), 비디오 확장(예: 프레임 절반 마스크)을 처리할 수 있습니다. 효율적인 설계는 대부분의 계산 리소스를 저해상도 계획 모델에 할당하여 계산 비용이 많이 들지만 중요한 시공간적 주의를 대규모로 수행할 수 있도록 합니다. MarDini는 비디오 보간을 위한 새로운 최첨단 기술을 설정합니다. 한편, 몇 가지 추론 단계 내에서 훨씬 더 비싼 고급 이미지-비디오 모델의 비디오와 동등한 비디오를 효율적으로 생성합니다.
https://huggingface.co/papers/2410.20280
GenIR & DreamClear: 흐릿한 과거를 선명하게, 사진 복원의 꿈을 이루다!
이 논문에서는 실제 이미지 복원에서 고품질 데이터 세트 부족 문제를 해결하기 위해 대규모 데이터 세트를 생성하는 새로운 방식인 GenIR을 제안합니다. GenIR은 개인 정보 보호 및 저작권 문제를 피하면서 T2I 모델의 생성 사전을 활용하여 이미지 복원 작업을 위한 대규모 데이터 세트를 자동으로 생성합니다. 또한 복잡한 실제 상황에 적응할 수 있는 고용량 이미지 복원 모델인 DreamClear를 소개합니다. DreamClear는 다양한 실제 저하에 적응하기 위해 저하 사전을 DiT 기반 프레임워크에 통합하고 MoAM이라는 새로운 모듈을 사용하여 다양한 복원 전문가를 동적으로 병합합니다. 실험 결과는 DreamClear가 복잡한 실제 이미지 복원 작업에서 최첨단 성능을 달성했음을 보여줍니다. GenIR과 DreamClear는 실제 이미지 복원을 위한 새로운 모델 및 데이터 세트 생성 방식을 제시하며, 이미지 복원 분야의 발전에 기여할 수 있습니다.
https://huggingface.co/papers/2410.18666
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 29일 오전 6:09