장안의 화제 논문 “GPT-4V(ision)을 디벼보자 - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” GPT-4V의 이미지 이해 능력이 어디까지 가능한지를 탐구한 논문인데요. ChatGPT가 처음 나왔을 때 정도의 충격입니다. 이미지 판별, 디텍팅, OCR은 물론이고 X-Ray 분석과 밈의 이해와 설명까지합니다. 핵심은 기존의 모든 이미지와 관련된 AI 모델의 능력을 GPT-4V 하나가 전부 발휘하고 있다는 것인데요. GPT-3가 기존의 모든 자연어와 관련된 AI 모델의 능력을 전부 하나의 모델로 가능하게 된 상황과 같습니다. 100가지의 능력을 하나의 모델로 가능하게 되었을 때 단순히 100배의 능력이 발휘되는 것이 아니라, 능력이 기하급수적으로 점프하여 10,000배 이상의 능력을 발휘 할 수 있게 되었다는 것이 핵심이라고 봅니다. 즉, GPT-3로 인해 AI 기술과 업계가 완전히 바뀐 것과 같은 상황이 다시 온 것이라고 봐도 무방할 것 같습니다. (아직은 개별 비전 태스크의 성능의 수준면에서 보면 GPT-3.5 수준 정도로 생각됩니다만, Vision이 GPT-4 수준으로 올라오는 것은 시간문제겠죠.) 안보신 분들은 꼭 한 번 보시기 바랍니다. 이미지만 봐도 어떤 일들이 가능한지와 앞으로 발전하게 될 모습을 충분히 알 수 있습니다. https://arxiv.org/abs/2309.17421

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 5일 오후 1:03

 • 

저장 11조회 2,130

댓글 0

    함께 읽은 게시물

    이제 개발자(응용 애플리케이션 개발자, 대부분의 백엔드도 응용 어플리케이션이다)는 더이상 병목이 아니어야한다. 오히려 기획자와 디자이너가 병목이 되게 만드는 개발자만이 살아남을 것이며, 이전에도 그랬지만 앞으로는 더더욱 개발자가 기획 및 디자인 역량도 갖추어야 경쟁력이 있을 것이다.


    < ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

    1

    ... 더 보기

    OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.

    ... 더 보기