모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다🌱.
그럼, 오늘의 AI 뉴스 시작해 볼게요! 🙂
1️⃣ DSDN: 텍스트-비디오 생성할 때 깜박임과 아티팩트 문제 해결법은 무엇?
최근 텍스트-비디오 생성에 대한 관심이 커지고 있지만, 현재 생성된 비디오에는 깜박임과 아티팩트 (비디오 품질 왜곡)문제가 여전히 존재하고 있습니다 이를 해결하기 위해 이 논문에서는 동영상 생성의 일관성을 향상시키기 위한 이중 스트림 Diffusion 모델(DSDN)을 소개합니다.
두 Diffusion 스트림, 비디오 콘텐츠와 모션 브랜치는 별도로 실행하며, 크로스 트랜스포머를 상호작용시켜 콘텐츠와 모션을 정렬합니다. 추가로 모션 디코더와 컴바이너가 도입되어 동영상 모션 작업이 간편해졌습니다. 실험 결과, 이 방법을 통해 깜박임 없이 고품질의 연속 동영상이 생성된 것을 확인할 수 있었습니다.
→ https://huggingface.co/papers/2308.08316
2️⃣ TeCH: 미세 조정 텍스트-이미지 확산을 활용한 고품질 3D 인물 재구성
한 장의 이미지를 통해 옷을 입은 사람의 '보이지 않는 영역'을 재구성하는 연구는 디테일 복원 퀄리티를 높일 때 난관을 초래합니다. 이번 논문에서는 텍스트 기반, 3D인물을 재구성하여 보는 새로운 TeCH 방법을 소개합니다.
이 방법은 의복을 분석하고 시각적 질문 답변을 활용, 생성된 설명 텍스트 프롬프트와 미세 조정 Text-to-Image Diffusion 모델을 통해 3D 인물을 재구성하는 방법입니다.
이 논문에서는 더 나아가 DMTet 기반의 하이브리드 3D 표현을 통해 고해상도 3D 옷을 입은 사람을 재구성까지 하는데요, TeCH는 고품질의 3D 옷을 입은 인간을 생성했으며 이전 모델들보다 더욱 개선되었다고 합니다.
→ https://huggingface.co/papers/2308.08545
3️⃣ DragNUWA: 텍스트, 이미지, 궤적을 활용한 세분화된 비디오 생성 모델
제어 가능한 비디오 생성 연구는 높은 관심을 받지만, 세밀한 제어 능력과 복잡한 궤적을 처리하는데 한계가 있습니다. 이런 한계를 극복하기 위해 요즘 연구진들은 DragNUWA라는 오픈 도메인 Diffuion 기반 비디오 생성 모델을 소개합니다.
이 모델은 텍스트, 이미지, 궤적 정보를 결합하여 영상 콘텐츠를 세분화시켜 제어하고 궤적 샘플러(TS), 멀티스케일 융합(MF), 적응형 훈련(AT) 전략을 통해 궤적 제어의 한계를 극복했습니다. 또한 여러 기법을 활용한 DragNUWA는 세분화된 비디오 생성 제어에서도 우수한 성능을 보였습니다.
→ https://huggingface.co/papers/2308.08089
📍Llama 2, SDXL 이미 알고 있다면?
AI학교 아이펠 리서치 과정 모집 중 → https://bit.ly/3YDkLV4