ImageBind by Meta AI
Metademolab
ChatGPT 로 LLM 은 어느정도 익숙해졌는데 다음 단계는 뭘까?
이미 GPT4 에서 이미지 인식이 가능하듯이 다음은 서로 다른 modality 를 동시에 처리하는 방법이 서비스로 더 많이 나올 것으로 예상된다. (이미 그러고 있다..)
Meta 에서는 ImageBind(https://imagebind.metademolab.com/) 를 공개한 적이 있고 MS, Google, Salesforce 등 다들 정말 진심으로 만들고 있다.
관련 연구자로서 LMM 에서 새로운 방법이 나왔다고 할 때 어떤 점이 새로워졌는지에 대한 패턴이 생겨서 적어둔다.
이미 만들어진 LLM 을 잘 활용하는 방법
LLM 을 만드는 것이 굉장히 큰 비용을 소모하기도 하기 때문에 새롭게 만들만한 물리적 시간이 부족하다. 따라서 기존 LLM 을 잘 사용하는 방법을 제안했을 가능성이 높다.
Image-Text Alignment 의 개선
현재까지의 LMM 의 가장 큰 문제점은 성격이 완전히 다른 두 데이터를 하나의 공간으로 매칭시키는 일이다. 현실적인 문제로 두 모달의 representation 은 현재 한 공간으로 매핑되지 못한다.
또 1번에서 언급한 LLM 비용 문제로 대체로 이미지 모델을 만들어진 LLM 에서 사용할 수 있게 학습하는 형태로 주로 사용한다.
지금까지 본 연구 중에서는 salesforce 의 InstructBLIP이 현명하게 접근한 것으로 보인다. 다만 Q-former 의 learned queries 가 비교적 명쾌하지는 않다는 생각이 들어서 더 발전할 여지는 있다고 생각한다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 11월 16일 오후 2:35
1
... 더 보기AI 기술이 우리 일상과 산업 전반에 스며들면서 소프트웨어 개발 환경 역시 큰 변화의 물결을 맞이하고 있다. 특히 코딩을 돕는 AI 에이전트의 등장은 개발 생산성에 대한 큰 변화를 만들고 있다. 나 역시 이러한 변화를 체감하며, 나에게 익숙한 소프트웨어 개발의 대표적인 두 축인 프론트엔드와 백엔드 영역에서 AI 기술이 미치는 영향과 그로 인해 변화하는 소프트웨어 엔지니어의 역할에 대해 개인적인 생각을 정리해 본다.
... 더 보기그게 쓸모 없을지라도 일단 제품을 출시했다는 것 자체가 매우 큰 차이가 된다. 로또 확률 0% 와 1%의 차이. 오죽하면 성공한 창업자들이나 VC들의 지겹도록 맨날하는 얘기의 99%가 일단 출시하세요겠음.
외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기