우태강

네이버 ML Engineer / Tech Lead

Large Multimodal Model 을 볼 때 생각해보면 좋은 점들

ChatGPT 로 LLM 은 어느정도 익숙해졌는데 다음 단계는 뭘까?

이미 GPT4 에서 이미지 인식이 가능하듯이 다음은 서로 다른 modality 를 동시에 처리하는 방법이 서비스로 더 많이 나올 것으로 예상된다. (이미 그러고 있다..)

Meta 에서는 ImageBind(https://imagebind.metademolab.com/) 를 공개한 적이 있고 MS, Google, Salesforce 등 다들 정말 진심으로 만들고 있다.

관련 연구자로서 LMM 에서 새로운 방법이 나왔다고 할 때 어떤 점이 새로워졌는지에 대한 패턴이 생겨서 적어둔다.

이미 만들어진 LLM 을 잘 활용하는 방법
- LLM 을 만드는 것이 굉장히 큰 비용을 소모하기도 하기 때문에 새롭게 만들만한 물리적 시간이 부족하다. 따라서 기존 LLM 을 잘 사용하는 방법을 제안했을 가능성이 높다.
Image-Text Alignment 의 개선
- 현재까지의 LMM 의 가장 큰 문제점은 성격이 완전히 다른 두 데이터를 하나의 공간으로 매칭시키는 일이다. 현실적인 문제로 두 모달의 representation 은 현재 한 공간으로 매핑되지 못한다.
  또 1번에서 언급한 LLM 비용 문제로 대체로 이미지 모델을 만들어진 LLM 에서 사용할 수 있게 학습하는 형태로 주로 사용한다.

지금까지 본 연구 중에서는 salesforce 의 InstructBLIP이 현명하게 접근한 것으로 보인다. 다만 Q-former 의 learned queries 가 비교적 명쾌하지는 않다는 생각이 들어서 더 발전할 여지는 있다고 생각한다.

ImageBind by Meta AI

Metademolab

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 11월 16일 오후 2:35

저장 9 • 조회 4,771

함께 읽은 게시물

𝙍𝙞𝙘𝙝𝙖𝙧𝙙

처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

2024년 06월 01일

고객들의 생각을 읽는 분석 방법 4가지

핵클 블로그(Hackle Blog) : 고객 행동 데이터를 활용하는 4가지 방법

Hackle

저장 1 • 조회 1,422

Arawn Park

Senior Engineer & Engineering Lead

5월 4일

무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

AI 기술이 우리 일상과 산업 전반에 스며들면서 소프트웨어 개발 환경 역시 큰 변화의 물결을 맞이하고 있다. 특히 코딩을 돕는 AI 에이전트의 등장은 개발 생산성에 대한 큰 변화를 만들고 있다. 나 역시 이러한 변화를 체감하며, 나에게 익숙한 소프트웨어 개발의 대표적인 두 축인 프론트엔드와 백엔드 영역에서 AI 기술이 미치는 영향과 그로 인해 변화하는 소프트웨어 엔지니어의 역할에 대해 개인적인 생각을 정리해 본다.

•

저장 36 • 조회 4,714

골빈해커

Chief Maker

5월 13일

그게 쓸모 없을지라도 일단 제품을 출시했다는 것 자체가 매우 큰 차이가 된다. 로또 확률 0% 와 1%의 차이. 오죽하면 성공한 창업자들이나 VC들의 지겹도록 맨날하는 얘기의 99%가 일단 출시하세요겠음.

저장 2 • 조회 3,530

달레

Apollo GraphQL Software Engineer

6월 1일

🌎 해외에서 일하면 뭐가 좋을까요❓

외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

댓글 1 • 저장 6 • 조회 3,102

비슷한 게시물

영현 GeoAI 연구원

📌 생성형 AI 모델 도입을 위한 핵심 고려사항

최고은 프로덕트 디자이너

🤖생성형 AI 툴로 디자인해보자! (스터디 후기)

김영욱 SAP France 프로덕트 매니저

<OpenAI, GPT 프롬프트 엔지니어링 가이드 발행>

영현 GeoAI 연구원

📌 GPT vs 스택오버플로우

변성윤 머신러닝 엔지니어, Engineering Manager

아자르에서 AI 추천 모델의 타겟 지표를 설정하는 방법 (아하모먼트)

이원형 라인플러스 소프트웨어 엔지니어

이전에 공유한 것처럼 저는 Google for Developers Machine Learning Bootcamp에 참여하고 있습니다.

주간 인기 TOP 10

골빈해커 Chief Maker

[광고] 다음 직무 채용 예정입니다. - 프러덕트/사업 기획 1

김의중 프론트엔드 개발자

Next.js 프로젝트를 AWS EKS에 배포하며 배운 것들

달레 Apollo GraphQL Software Engineer

🌎 해외에서 일하면 뭐가 좋을까요❓

K리그 프로그래머 커피한잔 개발자

앱 개발 개척시대

psmon 웹노리라이터

서버엔지니어의 시대적 고민

장홍석 스페이스오디티 부대표/CPO

< 서비스를 중독성 있게 만드는 결정적 원리 >

레드버스백맨 리서처 앤 라이터

⟪UX 디자이너가 사라지고 있다⟫

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

하나부터 열까지 리더가 상세히 설명해 주기를 바라는 구성원이 있습

평비 LGCNS 백엔드 개발자

개발자 교양 팟캐스트

조찬우 Coupang Sr. iOS Engineer

iOS 19가 아니라 이제 iOS 26?

Large Multimodal Model 을 볼 때 생각해보면 좋은 점들

댓글 0

함께 읽은 게시물

고객들의 생각을 읽는 분석 방법 4가지

무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

🌎 해외에서 일하면 뭐가 좋을까요❓

비슷한 게시물

주간 인기 TOP 10

추천 프로필