Large Multimodal Model 을 볼 때 생각해보면 좋은 점들

ChatGPT 로 LLM 은 어느정도 익숙해졌는데 다음 단계는 뭘까?

이미 GPT4 에서 이미지 인식이 가능하듯이 다음은 서로 다른 modality 를 동시에 처리하는 방법이 서비스로 더 많이 나올 것으로 예상된다. (이미 그러고 있다..)


Meta 에서는 ImageBind(https://imagebind.metademolab.com/) 를 공개한 적이 있고 MS, Google, Salesforce 등 다들 정말 진심으로 만들고 있다.


관련 연구자로서 LMM 에서 새로운 방법이 나왔다고 할 때 어떤 점이 새로워졌는지에 대한 패턴이 생겨서 적어둔다.


  1. 이미 만들어진 LLM 을 잘 활용하는 방법

    • LLM 을 만드는 것이 굉장히 큰 비용을 소모하기도 하기 때문에 새롭게 만들만한 물리적 시간이 부족하다. 따라서 기존 LLM 을 잘 사용하는 방법을 제안했을 가능성이 높다.

  2. Image-Text Alignment 의 개선

    • 현재까지의 LMM 의 가장 큰 문제점은 성격이 완전히 다른 두 데이터를 하나의 공간으로 매칭시키는 일이다. 현실적인 문제로 두 모달의 representation 은 현재 한 공간으로 매핑되지 못한다.
      또 1번에서 언급한 LLM 비용 문제로 대체로 이미지 모델을 만들어진 LLM 에서 사용할 수 있게 학습하는 형태로 주로 사용한다.


지금까지 본 연구 중에서는 salesforce 의 InstructBLIP이 현명하게 접근한 것으로 보인다. 다만 Q-former 의 learned queries 가 비교적 명쾌하지는 않다는 생각이 들어서 더 발전할 여지는 있다고 생각한다.

ImageBind by Meta AI

Metademolab

ImageBind by Meta AI

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 11월 16일 오후 2:35

댓글 0

    함께 읽은 게시물


    무너지고 있는 프론트엔드, 백엔드 직군의 경계에 대한 고찰

    AI 기술이 우리 일상과 산업 전반에 스며들면서 소프트웨어 개발 환경 역시 큰 변화의 물결을 맞이하고 있다. 특히 코딩을 돕는 AI 에이전트의 등장은 개발 생산성에 대한 큰 변화를 만들고 있다. 나 역시 이러한 변화를 체감하며, 나에게 익숙한 소프트웨어 개발의 대표적인 두 축인 프론트엔드와 백엔드 영역에서 AI 기술이 미치는 영향과 그로 인해 변화하는 소프트웨어 엔지니어의 역할에 대해 개인적인 생각을 정리해 본다.

    ... 더 보기

     • 

    저장 36 • 조회 4,714


    그게 쓸모 없을지라도 일단 제품을 출시했다는 것 자체가 매우 큰 차이가 된다. 로또 확률 0% 와 1%의 차이. 오죽하면 성공한 창업자들이나 VC들의 지겹도록 맨날하는 얘기의 99%가 일단 출시하세요겠음.


    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기