V-JEPA: The next step toward advanced machine intelligence
AI at Meta
얼마전 meta에서 V-JEPA(Video-Joint Embedding Predictive Architecture)를 공개했습니다.
V-JEPA는 인간처럼 효율적으로 배우는 머신을 만드는게 목표라고 하네요.
자기주도학습으로 세상이 작동하는 것을 학습했다고 하는데,
한 영상 내에서 물체를 인식하고, 물체의 동작이나 상호작용을 이해할 수 있는 모델이라고 합니다.
요새 핫한 생성형 모델은 아니라고 합니다.
영상에서 가려진 부분이 어떻게 되어있을지를 예측할 수 있는 모델인데,
샘플 영상을 보면, 종이를 넘기는 장면에 가려진 부분을 그럴싸하게 채워넣고 있습니다.
더 발전해서 자율 주행 등과 접목하면, 차 뒤편에서 갑자기 뛰어나오는 사람 등을 인식한다거나, 여러 방면으로 쓰일 수 있을 것 같습니다.
Video-JEPA 라고 했지만 이미지만 인식하는 단계라고 합니다. 향후에는 음성을 포함해서 예측할 수 있게 발전시킬 예정이라고 합니다.
더 많은 콘텐츠를 보고 싶다면?
이미 회원이신가요?
2024년 2월 20일 오후 5:31