이미지 비디오 Multi-modal 추론 모델, LLaVA-NeXT-Video 모델을 Amazon SageMaker에 배포하기 | Amazon Web Services
Amazon Web Services
LLaVA-NeXT-Video 모델은 LLaVA-NeXT의 후속 모델로, 비디오 이해 능력을 강화한 대형 멀티모달 모델 (Large Multimodal Model, LMM)입니다. 이 모델은 주로 텍스트-이미지 데이터로 학습된 LLaVA-NeXT를 기반으로 하여 비디오 데이터에 대한 성능을 향상시키기 위해 개발되었습니다.
주요 특징으로 아래 3가지를 꼽을 수 있습니다.
제로샷(Zero-shot) 비디오 표현 능력: AnyRes 기술을 활용하여 고해상도 이미지를 여러 이미지로 분할하고, 이를 사전 학습된 비전 트랜스포머 (Vision Transformer, ViT)에 입력합니다. 이 기술은 비디오를 여러 프레임으로 간주하여 자연스럽게 일반화할 수 있으며, 이를 통해 이미지 전용으로 학습된 모델이 비디오 작업에서도 강력한 성능을 발휘할 수 있도록 합니다.
길이 일반화: 선형 스케일링 (Linear scaling) 기술을 통해 영상의 길이를 일반화하여, “max_token_length”의 한계를 극복하고 긴 비디오도 효과적으로 처리할 수 있습니다.
강력한 비디오 이해 능력: Supervised Fine-Tuning (SFT)을 통해 비디오 데이터에 대해 추가 학습을 수행하여, 기존의 오픈 소스 LMM보다 뛰어난 비디오 이해 능력을 보여줍니다. 또한, Direct Preference Optimization (DPO)을 통해 AI 피드백을 사용하여 모델의 성능을 더욱 향상시켰습니다.
"아기가 빠르게 책을 넘기는 비디오"를 보여주고 What do you see in this video?
라는 프롬프트를 LLaVA-NeXT-Video 모델에 입력하면, 다음과 같이 답변을 받게 됩니다.
USER: What do you see in this video?
ASSISTANT: I see a baby reading a book.
첫번째에 이어서 Why is it funny?
라는 프롬프트를 입력 하면, 아래와 같은 답변을 받을 수 있습니다.
USER: Why is it funny?
ASSISTANT: It is funny because the baby is wearing a book like a superhero costume,
and the person's hand is making the baby look silly by holding the "book"
over the baby's face while they read, which creates a cute and humorous
visual effect. The baby seems to be enjoying the reading experience,
which adds to the humor.
여기서 놀라운 점은 “Why is it funny?”
라는 사용자의 질문에 LLaVA-NeXT-Vidoe 모델이 비디오의 내용을 이해하고, 입력된 비디오에서 재미있는 장면들을 언급 하면서, 적절한 답변을 해주고 있다는 점입니다.
이러한 LLaVA-NeXT-Video 모델을 사용하기 위해서 AWS 위에서는 ML 모델 추론 서비스 구축을 위한 완전 관리형 서비스인 Amazon SageMaker Enpoint에 AWS Cloud Development Kit (CDK)를 사용하여 모델을 호스팅하고 사용하실 수 있습니다.
https://aws.amazon.com/ko/blogs/tech/hosting-llava-next-video-model-on-amazon-sagemaker-endpoint/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 29일 오후 1:11