비디오 이해하는 LLaVA-NeXT-Video 모델의 3가지 특징

LLaVA-NeXT-Video 모델은 LLaVA-NeXT의 후속 모델로, 비디오 이해 능력을 강화한 대형 멀티모달 모델 (Large Multimodal Model, LMM)입니다. 이 모델은 주로 텍스트-이미지 데이터로 학습된 LLaVA-NeXT를 기반으로 하여 비디오 데이터에 대한 성능을 향상시키기 위해 개발되었습니다.


주요 특징으로 아래 3가지를 꼽을 수 있습니다.


  • 제로샷(Zero-shot) 비디오 표현 능력: AnyRes 기술을 활용하여 고해상도 이미지를 여러 이미지로 분할하고, 이를 사전 학습된 비전 트랜스포머 (Vision Transformer, ViT)에 입력합니다. 이 기술은 비디오를 여러 프레임으로 간주하여 자연스럽게 일반화할 수 있으며, 이를 통해 이미지 전용으로 학습된 모델이 비디오 작업에서도 강력한 성능을 발휘할 수 있도록 합니다.


  • 길이 일반화: 선형 스케일링 (Linear scaling) 기술을 통해 영상의 길이를 일반화하여, “max_token_length”의 한계를 극복하고 긴 비디오도 효과적으로 처리할 수 있습니다.


  • 강력한 비디오 이해 능력: Supervised Fine-Tuning (SFT)을 통해 비디오 데이터에 대해 추가 학습을 수행하여, 기존의 오픈 소스 LMM보다 뛰어난 비디오 이해 능력을 보여줍니다. 또한, Direct Preference Optimization (DPO)을 통해 AI 피드백을 사용하여 모델의 성능을 더욱 향상시켰습니다.


"아기가 빠르게 책을 넘기는 비디오"를 보여주고 What do you see in this video? 라는 프롬프트를 LLaVA-NeXT-Video 모델에 입력하면, 다음과 같이 답변을 받게 됩니다.

USER: What do you see in this video?
ASSISTANT: I see a baby reading a book.


첫번째에 이어서 Why is it funny? 라는 프롬프트를 입력 하면, 아래와 같은 답변을 받을 수 있습니다.

USER: Why is it funny?
ASSISTANT: It is funny because the baby is wearing a book like a superhero costume,
           and the person's hand is making the baby look silly by holding the "book" 
           over the baby's face while they read, which creates a cute and humorous
           visual effect. The baby seems to be enjoying the reading experience,
           which adds to the humor.


여기서 놀라운 점은 “Why is it funny?” 라는 사용자의 질문에 LLaVA-NeXT-Vidoe 모델이 비디오의 내용을 이해하고, 입력된 비디오에서 재미있는 장면들을 언급 하면서, 적절한 답변을 해주고 있다는 점입니다.


이러한 LLaVA-NeXT-Video 모델을 사용하기 위해서 AWS 위에서는 ML 모델 추론 서비스 구축을 위한 완전 관리형 서비스인 Amazon SageMaker EnpointAWS Cloud Development Kit (CDK)를 사용하여 모델을 호스팅하고 사용하실 수 있습니다.


https://aws.amazon.com/ko/blogs/tech/hosting-llava-next-video-model-on-amazon-sagemaker-endpoint/


이미지 비디오 Multi-modal 추론 모델, LLaVA-NeXT-Video 모델을 Amazon SageMaker에 배포하기 | Amazon Web Services

Amazon Web Services

이미지 비디오 Multi-modal 추론 모델, LLaVA-NeXT-Video 모델을 Amazon SageMaker에 배포하기 | Amazon Web Services

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 29일 오후 1:11

조회 815

댓글 0

    함께 읽은 게시물

    국내 최초 ‘창고형 약국’이 성남에 문을 열며 약국 유통 구조에 변화를 일으키고 있습니다💊

    ... 더 보기

    '케이팝 데몬 헌터스'는 한국은 물론, 미국, 영국, 호주, 프랑스, 독일, 홍콩, 인도, 이탈리아, 일본, 멕시코 등 총 22개국에서 1위를 차지했다.

    ... 더 보기

    '케이팝 데몬 헌터스', 전 세계 휩쓸었다..넷플릭스 글로벌 1위 [스타이슈] | 스타뉴스

    스타뉴스

    '케이팝 데몬 헌터스', 전 세계 휩쓸었다..넷플릭스 글로벌 1위 [스타이슈] | 스타뉴스

    《Simple Truth》

    ... 더 보기

    구성원들이 의욕적으로 협력하고 열정과 에너지가 느껴지는 팀과 조직이 있는 반면, 서로의 일에 무관심하고 타성과 매너리즘에 빠져 무기력하게 하루를 보내는 조직이 있다. 이렇게 차이가 나는 이유는 뭘까? 그것은 근본적으로 팀과 조직을 이끌어가는 리더의 에너지 상태가 다르기 때문이다.

    ... 더 보기

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    포브스코리아(Forbes Korea)

    저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

    어려운 문제를 대하는 태도

    

    ... 더 보기

    퍼플렉시티는 세계 최대 검색 엔진 업체인 구글에 대항하는 AI 기반 검색 엔진으로 알려진 스타트업이다. 실시간으로 웹 기반 정보를 활용해 이용자 질문에 답변하는 AI 검색 서비스를 제공한다. 최근 기업가치 140억 달러로 투자 유치를 마쳐 인수가 성사된다면 애플 역대 최대 인수가 될 전망이다.

    ... 더 보기

    애플, AI 검색 스타트업 퍼플렉시티 인수 검토…“내부 논의 중”

    n.news.naver.com

    애플, AI 검색 스타트업 퍼플렉시티 인수 검토…“내부 논의 중”

     • 

    조회 231