Community

장안의 화제 논문 “GPT-4V(ision)을 디벼보자 - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” GPT-4V의 이미지 이

장안의 화제 논문 “GPT-4V(ision)을 디벼보자 - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” GPT-4V의 이미지 이해 능력이 어디까지 가능한지를 탐구한 논문인데요. ChatGPT가 처음 나왔을 때 정도의 충격입니다. 이미지 판별, 디텍팅, OCR은 물론이고 X-Ray 분석과 밈의 이해와 설명까지합니다. 핵심은 기존의 모든 이미지와 관련된 AI 모델의 능력을 GPT-4V 하나가 전부 발휘하고 있다는 것인데요. GPT-3가 기존의 모든 자연어와 관련된 AI 모델의 능력을 전부 하나의 모델로 가능하게 된 상황과 같습니다. 100가지의 능력을 하나의 모델로 가능하게 되었을 때 단순히 100배의 능력이 발휘되는 것이 아니라, 능력이 기하급수적으로 점프하여 10,000배 이상의 능력을 발휘 할 수 있게 되었다는 것이 핵심이라고 봅니다. 즉, GPT-3로 인해 AI 기술과 업계가 완전히 바뀐 것과 같은 상황이 다시 온 것이라고 봐도 무방할 것 같습니다. (아직은 개별 비전 태스크의 성능의 수준면에서 보면 GPT-3.5 수준 정도로 생각됩니다만, Vision이 GPT-4 수준으로 올라오는 것은 시간문제겠죠.) 안보신 분들은 꼭 한 번 보시기 바랍니다. 이미지만 봐도 어떤 일들이 가능한지와 앞으로 발전하게 될 모습을 충분히 알 수 있습니다. https://arxiv.org/abs/2309.17421

알림

알림이 없습니다