Paper page - MarDini: Masked Autoregressive Diffusion for Video Generation at Scale
huggingface.co
MarDini: 마스크 쓴 화가, 시간의 캔버스에 영상을 그리다
이 논문에서는 마스크된 자기회귀(MAR)와 확산 모델(DM)의 장점을 결합한 새로운 비디오 생성 모델인 MarDini를 소개합니다. MAR은 시간적 계획을 처리하고 DM은 비대칭 네트워크 설계에서 공간 생성에 중점을 둡니다. 즉, 매개변수의 대부분을 포함하는 MAR 기반 계획 모델은 저해상도 입력을 사용하여 각 마스크된 프레임에 대한 계획 신호를 생성하고, 경량 생성 모델은 이러한 신호를 사용하여 확산 노이즈 제거를 통해 고해상도 프레임을 생성합니다. MarDini의 MAR을 사용하면 모든 프레임 위치에서 원하는 수의 마스크된 프레임을 기반으로 비디오를 생성할 수 있습니다. 단일 모델로 비디오 보간(예: 중간 프레임 마스크), 이미지-비디오 생성(예: 두 번째 프레임부터 마스크), 비디오 확장(예: 프레임 절반 마스크)을 처리할 수 있습니다. 효율적인 설계는 대부분의 계산 리소스를 저해상도 계획 모델에 할당하여 계산 비용이 많이 들지만 중요한 시공간적 주의를 대규모로 수행할 수 있도록 합니다. MarDini는 비디오 보간을 위한 새로운 최첨단 기술을 설정합니다. 한편, 몇 가지 추론 단계 내에서 훨씬 더 비싼 고급 이미지-비디오 모델의 비디오와 동등한 비디오를 효율적으로 생성합니다.
https://huggingface.co/papers/2410.20280
GenIR & DreamClear: 흐릿한 과거를 선명하게, 사진 복원의 꿈을 이루다!
이 논문에서는 실제 이미지 복원에서 고품질 데이터 세트 부족 문제를 해결하기 위해 대규모 데이터 세트를 생성하는 새로운 방식인 GenIR을 제안합니다. GenIR은 개인 정보 보호 및 저작권 문제를 피하면서 T2I 모델의 생성 사전을 활용하여 이미지 복원 작업을 위한 대규모 데이터 세트를 자동으로 생성합니다. 또한 복잡한 실제 상황에 적응할 수 있는 고용량 이미지 복원 모델인 DreamClear를 소개합니다. DreamClear는 다양한 실제 저하에 적응하기 위해 저하 사전을 DiT 기반 프레임워크에 통합하고 MoAM이라는 새로운 모듈을 사용하여 다양한 복원 전문가를 동적으로 병합합니다. 실험 결과는 DreamClear가 복잡한 실제 이미지 복원 작업에서 최첨단 성능을 달성했음을 보여줍니다. GenIR과 DreamClear는 실제 이미지 복원을 위한 새로운 모델 및 데이터 세트 생성 방식을 제시하며, 이미지 복원 분야의 발전에 기여할 수 있습니다.
https://huggingface.co/papers/2410.18666
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 29일 오전 6:09
Q) 🙋♀️ 데이터를 활용해 UX를 개선했다는 걸 잘 보여주고 싶어요. 포폴에서 어떤 식으로 서술하면 좋을까요? (예비 디자이너 분)
... 더 보기GPT-4.5 출시 후 GPT-4o의 성능이 빠르게 좋아지고 있음. GPT-4.5로 GPT-4o를 튜닝하면서 성능을 끌어올리고 있는 것이 아닌가 싶음. GPT-4o 수준의 파인튜닝 속도가 진짜 빠르다는 것이 놀라움. 이것이 OpenAI의 최대 강점일 수도.
MCP는 기술적으로는 거의 순수하게 Function Calling의 Thin Wrapper에 불과함.
다만, 현재 대부분의 애플리케이션이 Function Calling을 지원하지 않는 상태라, LLM에 Function Calling을 주입할 수 있는 서버를 쉽게 만들 수 있는 라이브러리를 제공했던 것이 MCP를 확산시키는 데에 크게 기여를 한 것.