[1203]모두에게 전하는 모두연 AI뉴스!

  • CAT3D: 이미지 몇 장으로 3D 세상을 만들다!

CAT3D는 여러 개의 이미지를 사용하여 3D 장면을 생성하는 혁신적인 방법입니다. 이전 연구에서는 3D 장면 생성에 수천 개의 이미지가 필요했지만, CAT3D는 다중 시점 확산 모델을 사용하여 훨씬 적은 수의 이미지로도 사실적인 3D 장면을 생성할 수 있습니다. CAT3D는 입력 이미지와 대상 시점 세트가 주어지면 장면의 새로운 시점을 생성하고, 이를 3D 재구성 기술과 결합하여 어떤 시점에서든 렌더링 가능한 3D 표현을 생성합니다. CAT3D는 1분 안에 전체 3D 장면을 생성할 수 있으며, 기존의 단일 이미지 및 소수 시점 3D 장면 생성 방법보다 뛰어난 성능을 보입니다. 또한, 텍스트-이미지 모델을 사용하여 텍스트 프롬프트에서 3D 장면을 생성할 수도 있습니다. CAT3D는 다양한 벤치마크에서 기존 방법보다 우수한 성능을 보이며, 텍스트-3D 및 단일 이미지-3D와 같은 작업에서도 효과적입니다.


https://openreview.net/forum?id=TFZlFRl9Ks


  • VAR: 이미지 생성 속도와 품질, 두 마리 토끼를 잡다!

이 논문은 이미지 생성에서 자기회귀 모델의 성능을 향상시키는 새로운 방법인 VAR(Visual Autoregressive) 모델링을 제안합니다. VAR은 이미지를 '다음 토큰 예측'이 아닌 '다음 스케일 예측'으로 재정의하여 기존 자기회귀 모델의 속도와 성능을 크게 향상시킵니다. 이는 이미지를 여러 스케일의 토큰 맵으로 인코딩하고, 저해상도에서 고해상도로 순차적으로 예측하는 방식으로 이루어집니다. VAR은 ImageNet 벤치마크에서 FID 1.73, IS 350.2를 달성하여 기존 AR 모델을 능가하며, DiT와 같은 최신 확산 모델보다 더 빠른 속도와 높은 데이터 효율성을 보입니다. 또한, 대규모 언어 모델에서 관찰되는 것과 유사한 스케일링 법칙을 따르며, 이미지 수정 및 편집과 같은 다운스트림 작업에서 제로샷 일반화 능력을 보여줍니다.


https://openreview.net/forum?id=gojL67CfS8


[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx
기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

OpenReview

CAT3D: Create Anything in 3D with Multi-View Diffusion Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 12월 3일 오전 5:57

댓글 0