text로 3D 비디오 만들기

Meta AI 에서 text-to-4D 연구를 공개하였습니다. 여기서의 4D는 3D 에 시간축이 추가된 것입니다. 즉, text를 넣으면 3D video를 생성하는 연구입니다. 기존에 Meta AI에서 text로 video 생성하는 연구를 공개하기도 했고, text를 3D로 만드는 연구는 몇가지 있었는데 이번에는 3D video 를 만든다는 것이 흥미로운 포인트입니다. 아직 코드나 모델 관련해서는 공개하지 않았고, 논문과 예시만 공개되어 있습니다. 논문을 읽어보면 기존의 text-to-video diffusion model 활용이 핵심이고, 이를 NeRF 모델까지 통합했다고 보면 될 것 같습니다. 쉬운 task가 아니다 보니 여러 stage를 거쳐서 생성을 하게 되고 구조가 복잡해 질 수밖에 없는 것 같은데 논문에 어떠한 방법들을 사용했는지 설명이 되어 있습니다. 구조가 복잡한 만큼 잘 안나오는 경우도 많을 것 같아서 예시는 cherry-pick 해서 올려놓은 것 같습니다. 이러한 시도를 하고 결과를 어느정도 낸 것만으로도 대단하다고 생각됩니다.

Text-To-4D Dynamic Scene Generation

Text-To-4D Dynamic Scene Generation

Text-To-4D Dynamic Scene Generation

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 1월 27일 오후 4:51

댓글 0