백선환

AWS/ AIML Specialist

비디오 이해하는 LLaVA-NeXT-Video 모델의 3가지 특징

LLaVA-NeXT-Video 모델은 LLaVA-NeXT의 후속 모델로, 비디오 이해 능력을 강화한 대형 멀티모달 모델 (Large Multimodal Model, LMM)입니다. 이 모델은 주로 텍스트-이미지 데이터로 학습된 LLaVA-NeXT를 기반으로 하여 비디오 데이터에 대한 성능을 향상시키기 위해 개발되었습니다.

주요 특징으로 아래 3가지를 꼽을 수 있습니다.

제로샷(Zero-shot) 비디오 표현 능력: AnyRes 기술을 활용하여 고해상도 이미지를 여러 이미지로 분할하고, 이를 사전 학습된 비전 트랜스포머 (Vision Transformer, ViT)에 입력합니다. 이 기술은 비디오를 여러 프레임으로 간주하여 자연스럽게 일반화할 수 있으며, 이를 통해 이미지 전용으로 학습된 모델이 비디오 작업에서도 강력한 성능을 발휘할 수 있도록 합니다.

길이 일반화: 선형 스케일링 (Linear scaling) 기술을 통해 영상의 길이를 일반화하여, “max_token_length”의 한계를 극복하고 긴 비디오도 효과적으로 처리할 수 있습니다.

강력한 비디오 이해 능력: Supervised Fine-Tuning (SFT)을 통해 비디오 데이터에 대해 추가 학습을 수행하여, 기존의 오픈 소스 LMM보다 뛰어난 비디오 이해 능력을 보여줍니다. 또한, Direct Preference Optimization (DPO)을 통해 AI 피드백을 사용하여 모델의 성능을 더욱 향상시켰습니다.

"아기가 빠르게 책을 넘기는 비디오"를 보여주고 What do you see in this video? 라는 프롬프트를 LLaVA-NeXT-Video 모델에 입력하면, 다음과 같이 답변을 받게 됩니다.

USER: What do you see in this video?
ASSISTANT: I see a baby reading a book.

첫번째에 이어서 Why is it funny? 라는 프롬프트를 입력 하면, 아래와 같은 답변을 받을 수 있습니다.

USER: Why is it funny?
ASSISTANT: It is funny because the baby is wearing a book like a superhero costume,
           and the person's hand is making the baby look silly by holding the "book" 
           over the baby's face while they read, which creates a cute and humorous
           visual effect. The baby seems to be enjoying the reading experience,
           which adds to the humor.

여기서 놀라운 점은 “Why is it funny?” 라는 사용자의 질문에 LLaVA-NeXT-Vidoe 모델이 비디오의 내용을 이해하고, 입력된 비디오에서 재미있는 장면들을 언급 하면서, 적절한 답변을 해주고 있다는 점입니다.

이러한 LLaVA-NeXT-Video 모델을 사용하기 위해서 AWS 위에서는 ML 모델 추론 서비스 구축을 위한 완전 관리형 서비스인 Amazon SageMaker Enpoint에 AWS Cloud Development Kit (CDK)를 사용하여 모델을 호스팅하고 사용하실 수 있습니다.

https://aws.amazon.com/ko/blogs/tech/hosting-llava-next-video-model-on-amazon-sagemaker-endpoint/

이미지 비디오 Multi-modal 추론 모델, LLaVA-NeXT-Video 모델을 Amazon SageMaker에 배포하기 | Amazon Web Services

Amazon Web Services

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 29일 오후 1:11

조회 815

함께 읽은 게시물

SNEW 스타트업 뉴스

start-up and VC

3일 전

국내 최초 ‘창고형 약국’이 성남에 문을 열며 약국 유통 구조에 변화를 일으키고 있습니다💊

댓글 1 • 저장 4 • 조회 512

SNEW 스타트업 뉴스

start-up and VC

하루 전

'케이팝 데몬 헌터스'는 한국은 물론, 미국, 영국, 호주, 프랑스, 독일, 홍콩, 인도, 이탈리아, 일본, 멕시코 등 총 22개국에서 1위를 차지했다.

'케이팝 데몬 헌터스', 전 세계 휩쓸었다..넷플릭스 글로벌 1위 [스타이슈] | 스타뉴스

스타뉴스

저장 1 • 조회 285

레드버스백맨

리서처 앤 라이터

하루 전

《Simple Truth》

하

저장 3 • 조회 450

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

2일 전

구성원들이 의욕적으로 협력하고 열정과 에너지가 느껴지는 팀과 조직이 있는 반면, 서로의 일에 무관심하고 타성과 매너리즘에 빠져 무기력하게 하루를 보내는 조직이 있다. 이렇게 차이가 나는 이유는 뭘까? 그것은 근본적으로 팀과 조직을 이끌어가는 리더의 에너지 상태가 다르기 때문이다.

저성장기, 팀과 조직에 긍정에너지를 불어넣는 에너자이징 리더십이 요구된다 - 포브스코리아(Forbes Korea)

포브스코리아(Forbes Korea)

저장 1 • 조회 261

석민

커리어 코치

하루 전

어려운 문제를 대하는 태도

저장 2 • 조회 449

SNEW 스타트업 뉴스

start-up and VC

2일 전

퍼플렉시티는 세계 최대 검색 엔진 업체인 구글에 대항하는 AI 기반 검색 엔진으로 알려진 스타트업이다. 실시간으로 웹 기반 정보를 활용해 이용자 질문에 답변하는 AI 검색 서비스를 제공한다. 최근 기업가치 140억 달러로 투자 유치를 마쳐 인수가 성사된다면 애플 역대 최대 인수가 될 전망이다.

애플, AI 검색 스타트업 퍼플렉시티 인수 검토…“내부 논의 중”

n.news.naver.com

•

조회 231

비슷한 게시물

백선환 AWS/ AIML Specialist

OpenAI Whisper 모델 CDK로 AWS위에서 배포하기

Jonas Kim 데이터 과학자, ML 엔지니어

Paper Review 3 - IP-Adapter

강병진 GS 52g Studio 개발자

VertexAI Claude 3 Opus 연동

백선환 AWS/ AIML Specialist

Bedrock, Luma AI Ray2 동영상 모델 출시!

백선환 AWS/ AIML Specialist

AWS AI 주간 소식: 베드락 Claude 3.5 Haiku 모델 제공

백선환 AWS/ AIML Specialist

카카오스타일(3) AI 기반 맞춤형 여행 가이드 서비스

주간 인기 TOP 10

김의중 프론트엔드 개발자

이력서는 붙는데 면접에서 계속 떨어진다면?

동크루트 AI 엔지니어, SW 엔지니어

6월 초, 새로운 바이브 코딩과 SW 개발의 전환의 시대

골빈해커 Chief Maker

🪄 플레이모어와 함께할 동료를 찾습니다

장홍석 스페이스오디티 부대표/CPO

< PM/PO 커리어 3단계: 당신은 How, What, Why

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

“직원들에게 월급 외에 출근할 이유를 줘야 합니다. 팀장이 좋다던

달레 Apollo GraphQL Software Engineer

Kotlin의 Scope 함수 정리

석민 커리어 코치

결과보다 과정을

기묘한 트렌드라이트 발행인

🔍네이버가 쿠팡 고객을 데려왔다고? 팩트 체크해 봤습니다

Somewon Yoon 프로젝트 썸원 Content Owner

젠슨 황은 어떻게 커리어를 쌓았나

이재호 책 <일 잘하는 팀장> 저자. 네오위즈 AI 개발자

고난이 사람을 키운다

비디오 이해하는 LLaVA-NeXT-Video 모델의 3가지 특징

댓글 0

함께 읽은 게시물

《Simple Truth》

어려운 문제를 대하는 태도

비슷한 게시물

주간 인기 TOP 10

추천 프로필