CAT3D: Create Anything in 3D with Multi-View Diffusion Models
OpenReview
CAT3D : 2D 이미지로부터 3D scene을 생성하는 Diffusion model
3D 복원 기술의 발전으로 고품질 3D 캡처가 가능해졌지만, 3D 장면을 만들기 위해서는 사용자가 수백에서 수천 장의 이미지를 수집해야 합니다. 이에 구글 딥마인드와 구글 리서치 그룹은 Multi view diffusion model 을 사용하여 이러한 실제 캡처 과정을 시뮬레이션하는 CAT3D를 제시하였습니다. 입력 이미지의 수와 목표로 하는 새로운 시점들이 주어지면, 우리의 모델은 장면의 매우 일관된 새로운 시점들을 생성합니다. 이렇게 생성된 시점들은 강력한 3D 복원 기술의 입력으로 사용되어, 실시간으로 어떤 시점에서도 렌더링할 수 있는 3D 표현을 만들어낼 수 있습니다. CAT3D는 단 1분 만에 전체 3D 장면을 만들 수 있으며, 단일 이미지와 소수 시점의 3D 장면 생성에 있어 기존 방법들보다 더 우수한 성능을 보여줍니다.
https://openreview.net/forum?id=TFZlFRl9Ks
작업에 필요한 Diffusion model 의 어댑터를 자동으로 선택하는 Stylus
어댑터는 저비용으로 고품질 맞춤형 이미지를 생성할 수 있는 효과적인 방법입니다. 현재 10만 개 이상의 어댑터가 오픈소스 커뮤니티에 존재하지만, 대부분이 충분한 설명 없이 고도로 맞춤화되어 있습니다. 구글 딥마인드와 UC 버클릭, CMU 공동 연구진은 이에 프롬프트와 관련 어댑터를 효과적으로 매칭하는 'Stylus'를 제안하였습니다. Stylus는 어댑터에 대한 개선된 설명과 임베딩 생성, 관련 어댑터 검색, 프롬프트 키워드 기반 어댑터 조합 의 3단계로 구성되어 있습니다. 또한 저자들은 성능 평가를 위해 7.5만 개의 어댑터를 포함하는 'StylusDocs' 데이터셋을 개발했습니다. Stable Diffusion 체크포인트에서 테스트한 결과, Stylus는 기존 기본 모델보다 CLIP / FID 점수에서 기존 연구보다 우수함을 입증하였으며, 인간과 AI 평가자 모두에게서 2배 더 높은 선호도를 받았습니다.
https://openreview.net/forum?id=3Odq2tGSpp
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정!
AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 13일 오전 7:36