구글 딥마인드가 Veo 3로 제로샷 학습 능력에 대한 논문을 냈는데요.


요약하자면 Veo 3는 동영상 생성을 학습시킨 모델인데, 나나는각종 비전 태스크인 객체 분할, 모서리 검출, 노이즈나 배경 제거, 편집 합성 등 뿐 아니라 물체의 물리적 특성을 이해하거나 미로를 풀거나 규칙 기반의 퍼즐을 푸는 등, 영상 내 장면을 해석하고 조작하며 추론 과제도 어느정도 수행 할 수 있었다고 합니다.


이걸 따로 학습 시킨 것도 아닌데 말이죠.


마치 GPT 초기 모델에 텍스트를 생성하게만 학습한건데, 각종 텍스트 작업과 추론이 가능해서 놀랐던 것과 마찬가지로요.


물론 LLM도 이미지를 학습시키고 출력시키는 멀티모달 모델이 많이 나오긴 했습니다만, 동영상의 형태로 출력한다는 것과 물리세계를 조금 더 잘 이해한다는 것이겠습니다.


아무튼 이는 이미지/영상 모델도 생성 모델로 단일 범용 모델을 만들 수 있다는 잠재력이 있다는 이야기인데요.


궁극적으로는 비전과 LLM이 합쳐져서 완전한 월드 모델이 될 것 같긴합니다.


그.. 참, 생성과 이해가 서로 연결고리가 있다는 것이 다시봐도 신기하기도 하고(직관적으로는 이해되지만), AI의 발전의 끝을 알 수 없다는 생각도 드네요.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 9월 28일 오전 6:03

조회 1,053

댓글 0