Large Multimodal Model 을 볼 때 생각해보면 좋은 점들
ChatGPT 로 LLM 은 어느정도 익숙해졌는데 다음 단계는 뭘까? 이미 GPT4 에서 이미지 인식이 가능하듯이 다음은 서로 다른 modality 를 동시에 처리하는 방법이 서비스로 더 많이 나올 것으로 예상된다. (이미 그러고 있다..) Meta 에서는 ImageBind(https://imagebind.metademolab.com/) 를 공개한 적이 있고 MS, Google, Salesforce 등 다들 정말 진심으로 만들고 있다. 관련 연구자로서 LMM 에서 새로운 방법이 나왔다고 할 때 어떤 점이 새로워졌는지에 대한 패턴이 생겨서 적어둔다. 1. 이미 만들어진 LLM 을 잘 활용하는 방법 * LLM 을 만드는 것이 굉장히 큰 비용을 소모하기도 하기 때문에 새롭게 만들만한 물리적 시간이 부족하다. 따라서 기존 LLM 을 잘 사용하는 방법을 제안했을 가능성이 높다. 2. Image-Text Alignment 의 개선 * 현재까지의 LMM 의 가장 큰 문제점은 성격이 완전히 다른 두 데이터를 하나의 공간으로 매칭시키는 일이다. 현실적인 문제로 두 모달의 representation 은 현재 한 공간으로 매핑되지 못한다. 또 1번에서 언급한 LLM 비용 문제로 대체로 이미지 모델을 만들어진 LLM 에서 사용할 수 있게 학습하는 형태로 주로 사용한다. 지금까지 본 연구 중에서는 salesforce 의 InstructBLIP이 현명하게 접근한 것으로 보인다. 다만 Q-former 의 learned queries 가 비교적 명쾌하지는 않다는 생각이 들어서 더 발전할 여지는 있다고 생각한다.