Salesforce의 BLIP 2 공개
Salesforce에서 BLIP-2라는 연구를 얼마 전에 공개했습니다. 기존에 BLIP의 경우 image-text를 pretraining 한 모델이었고 captioning 성능이 꽤 뛰어나서 인상적이었는데요, 이를 개선한 연구입니다. Image에 대해서 captioning이나 Q&A 등 다양한 task에 대해서 인상적인 결과를 내는 것을 볼 수 있습니다. salesforce-lavis 라이브러리에도 통합이 되어서 손쉽게 사용할 수도 있습니다. OPT나 T5 계열 모델을 활용해서 pretrained된 모델도 공개되어 있기 때문에, 테스트도 비교적 쉽게 해 볼수 있습니다. HuggingFace 데모 (https://huggingface.co/spaces/Salesforce/BLIP2) 에도 있지만 Google Research의 FlanT5 를 활용하여 chat 형태로 대화도 가능합니다. 이걸 보면 정말 수 많은 오픈소스 모델들이 모여서 더 뛰어난 혁신을 만들어 나가는 것 같고, LLM뿐 아니라 Large-scale model들이 빠르게 multi-modal 쪽으로 발전해 나가는 것 같이 느껴집니다.