Community

MS에서 Kosmos-1이라는 multi-modal LLM 공개

얼마 전에 Microsoft에서 Kosmos-1이라고 불리는 multi-modal LLM을 공개하였습니다. text와 image를 둘 다 사용해서 결과를 얻을 수 있는 모델입니다. 얼마 전에 Salesforce에서 BLIP의 후속 모델인 BLIP-2 를 공개했었고 이것도 인상적이었는데, Kosmos-1 논문에 내용에서 더 인상적인 부분은 OCR 기능도 꽤 잘된다고 주장한다는 점입니다. OCR 전용 모델이 아님에도 불구하고, 문서 이미지에 대해서 text를 어느정도 뽑아내고 답을 할 수 있는 수준이 된다고 이야기 하고 있습니다. (물론 실제로 돌려보면 이 기능은 제한적일 것 같습니다.) 아쉽게도 아직 모델이 공개되지는 않았습니다. 하지만 곧 MS의 Large-scale model 을 모아 놓은 repository 에 공개할 것으로 보입니다: https://github.com/microsoft/unilm 요즘 워낙에 LLM과 Generative AI 가 핫해져서 앞으로 한동안은 많은 회사들이 경쟁적으로 Large-scale의 multi-modal model 들을 공개할 것 같고, 여러 비즈니스 기회가 만들어 지지 않을까 싶습니다..!!

알림

알림이 없습니다