모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다. 오늘의 AI 뉴스 시작해 볼게요!
1️⃣ [Show-1: 텍스트-비디오 생성을 위한 효율적인 하이브리드 확산 모델]
대규모 텍스트-비디오 확산 모델(VDM) 분야에서의 발전에도 불구하고, 기존 모델들은 계산 비용이 높은 픽셀 기반 VDM이나 텍스트와 비디오의 정확한 정렬이 어려운 잠재 기반 VDM에 의존하는 경향이 있었습니다. 이 연구에서는 텍스트-비디오 생성을 위한 새로운 하이브리드 모델인 Show-1을 제안하며, 이 모델은 픽셀 기반 VDM으로 저해상도 비디오를 생성한 뒤, 잠재 기반 VDM을 사용해 이를 고해상도로 업샘플링합니다. 결과적으로 Show-1은 텍스트와 비디오의 정확한 정렬이 가능하면서도 픽셀 기반 VDM보다 훨씬 효율적입니다.
https://huggingface.co/papers/2309.15818
2️⃣ [Emu: 고품질 이미지 세트를 활용한 텍스트-이미지 모델의 품질 튜닝]
웹 스케일의 이미지-텍스트 쌍을 활용해 텍스트-이미지 모델을 학습하면 다양한 시각적 개념을 생성할 수 있지만, 높은 품질의 이미지 생성에는 한계가 있습니다. 이 연구에서는 이러한 문제를 해결하기 위해 품질 튜닝 방법을 제안합니다. 이 방법은 작은 규모의 고품질 이미지 세트를 사용하여 미세 조정을 진행하여 생성 품질을 크게 향상시키는 것을 중점으로 합니다. 11억 개의 이미지-텍스트 쌍으로 학습한 모델을 수천 개의 고품질 이미지로 미세 조정한 결과, Emu라는 모델이 82.9%의 승률로 뛰어난 성능을 보였습니다. Emu는 최신 SDXLv1.0과 비교해도 높은 선호도를 보였으며, 제안된 품질 튜닝 방식은 다양한 아키텍처에도 효과적으로 적용될 수 있음을 입증하였습니다.
https://huggingface.co/papers/2309.15807
3️⃣ [PIXART-alpha: 고품질 저비용 텍스트-이미지 생성을 위한 효율적인 확산 모델]
최첨단 텍스트-이미지(T2I) 모델의 큰 훈련 비용은 CO2 배출을 증가시키고 혁신을 방해하고 있습니다. 이 연구에서는 효율적인 훈련 비용으로 최첨단 이미지 생성 기술과 경쟁하는 Transformer 기반 T2I 확산 모델인 PIXART-alpha를 제시합니다. 이 모델은 훈련 전략의 분해, 효율적인 T2I 트랜스포머 디자인, 정보성이 높은 데이터 활용의 세 가지 핵심 설계를 기반으로 합니다. 결과적으로 PIXART-alpha는 기존 모델들에 비해 매우 빠른 훈련 속도를 보여주며, 훈련 비용과 CO2 배출량을 크게 줄였습니다. 이 모델은 이미지 품질, 예술성, 의미 제어에서 우수한 성능을 보였으며, 고품질 저비용 생성 모델의 구축에 새로운 기회를 제시합니다.
https://huggingface.co/papers/2310.00426
—
🥇 K-디지털 트레이닝 훈련기관 최초!
'대통령 표창' 수상한 모두의연구소의 AI학교 아이펠 입학하기 → https://bit.ly/3YDkLV4