GitHub - NIRVANALAN/GaussianAnything: High-quality and editable surfel Gaussian generation through native 3D diffusion.
GitHub
GaussianAnything3D
콘텐츠 생성 기술이 크게 발전했지만, 기존 방법들은 여전히 입력 형식, 잠재 공간 설계, 출력 표현과 관련된 과제들에 직면해 있습니다. 싱가포르의 난양기술대학과 중국의 상하이 인공지능 연구소, 베이징 대학 공동 연구진은 이러한 과제들을 해결하는 새로운 3D 생성 프레임워크. GaussianAnything을 소개하였습니다. GaussianAnything 은 포인트 클라우드 구조의 잠재 공간을 통해 확장 가능하고 고품질의 3D 생성을 대화형으로 제공합니다. 다중 시점의 포즈가 있는 RGB-Depth-Normal 을 렌더링을 입력으로 사용하는 VAE를 활용하며, 또한 3D 형상 정보를 보존하는 독특한 Latent space 설계를 적용하였습니다. 마지막으로 형상과 텍스터 분리를 위한 피라미드형의 dissuaion model 을 도입하였습니다. 이로써 GaussianAnything은 포인트 클라우드, 캡션, 단일/다중 시점 이미지 입력 등의 multimodal conditioned 3D generation을 지원하며, Geometry와 texture를 분리하여 생성물의 3D 편집을 가능하게 합니다.
https://github.com/NIRVANALAN/GaussianAnything
서울대 연구진, 불확실성 인식 정규화를 통하여 4D Gaussian splatting 을 향상시키다
동적 장면의 Novel view synthesis는 증강 현실과 가상 현실을 포함한 다양한 애플리케이션에서 중요해지고 있습니다. 특히 비디오에서의 Gaussain Splatting 을 이용한 기법이 소개되었었지만, 과적합 문제로 인해 품질에 문제가 있었습니다. 이에 서울대 연구진이 일상적으로 녹화된 모노큘러 비디오에서 동적 장면을 위한 새로운 4D Gaussian Splatting (4DGS) 알고리즘을 제안합니다. 연구자들은 관찰이 적은 불확실한 영역을 식별하고 그러한 영역에 diffusion 모델과 깊이 smoothness를 기반으로 한 추가적인 prior를 선택적으로 부과하는 uncertainty-aware regularization을 도입합니다. 이 접근 방식은 novel view synthesis의 성능과 training image reconstruction의 품질을 모두 향상시킵니다. 또한 연구자들은 빠르게 움직이는 동적 영역에서 4DGS의 initialization 문제로 고품질의 view 생성에 실패하는 것을 발견하고, 이러한 영역에서 Gaussian primitive를 초기화하기 위해, depth map과 scene flow를 추정하는 dynamic region densification 방법을 제시합니다. 제안된 방법은 핸드헬드 모노큘러 카메라로 촬영한 비디오에서 4DGS reconstruction의 성능을 향상시키고 few-shot static scene reconstruction에서도 유망한 결과를 보여준다는 것을 보여주었습니다.
https://arxiv.org/pdf/2411.08879
[오늘 마감! 아이펠 11기] AI 입문부터 활용까지! AI개발자 과정!
AI학교 아이펠 11기 모집 오늘 신청마감: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 18일 오전 6:17