골빈해커

Chief Maker

장안의 화제 논문 “GPT-4V(ision)을 디벼보자 - The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)” GPT-4V의 이미지 이해 능력이 어디까지 가능한지를 탐구한 논문인데요. ChatGPT가 처음 나왔을 때 정도의 충격입니다. 이미지 판별, 디텍팅, OCR은 물론이고 X-Ray 분석과 밈의 이해와 설명까지합니다. 핵심은 기존의 모든 이미지와 관련된 AI 모델의 능력을 GPT-4V 하나가 전부 발휘하고 있다는 것인데요. GPT-3가 기존의 모든 자연어와 관련된 AI 모델의 능력을 전부 하나의 모델로 가능하게 된 상황과 같습니다. 100가지의 능력을 하나의 모델로 가능하게 되었을 때 단순히 100배의 능력이 발휘되는 것이 아니라, 능력이 기하급수적으로 점프하여 10,000배 이상의 능력을 발휘 할 수 있게 되었다는 것이 핵심이라고 봅니다. 즉, GPT-3로 인해 AI 기술과 업계가 완전히 바뀐 것과 같은 상황이 다시 온 것이라고 봐도 무방할 것 같습니다. (아직은 개별 비전 태스크의 성능의 수준면에서 보면 GPT-3.5 수준 정도로 생각됩니다만, Vision이 GPT-4 수준으로 올라오는 것은 시간문제겠죠.) 안보신 분들은 꼭 한 번 보시기 바랍니다. 이미지만 봐도 어떤 일들이 가능한지와 앞으로 발전하게 될 모습을 충분히 알 수 있습니다. https://arxiv.org/abs/2309.17421

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 10월 5일 오후 1:03

•

저장 11 • 조회 2,130

함께 읽은 게시물

골빈해커

Chief Maker

2일 전

이제 개발자(응용 애플리케이션 개발자, 대부분의 백엔드도 응용 어플리케이션이다)는 더이상 병목이 아니어야한다. 오히려 기획자와 디자이너가 병목이 되게 만드는 개발자만이 살아남을 것이며, 이전에도 그랬지만 앞으로는 더더욱 개발자가 기획 및 디자인 역량도 갖추어야 경쟁력이 있을 것이다.

저장 3 • 조회 918

장홍석

스페이스오디티 부대표/CPO

하루 전

< ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

댓글 1 • 저장 2 • 조회 364

골빈해커

Chief Maker

3일 전

OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.

저장 7 • 조회 1,671

비슷한 게시물

골빈해커 Chief Maker

📝 Anthropic, AI의 캐릭터성에 대한 연구

골빈해커 Chief Maker

OpenAI에서 “DALL-E 3는 어떻게 사용자의 의도를 정확하게 반영할 수 있는가?”에 대한 논문 발표.

영현 GeoAI 연구원

🧐AGI를 향하는 정도(正道)는 LLM이 될 것 인가?

Sue.cream Developer Relations

(글 공유) LLM, 더 저렴하게, 더 빠르게, 더 똑똑하게

골빈해커 Chief Maker

📝 Anthropic의 LLM 마인드 맵핑 개념 이해하기

골빈해커 Chief Maker

DALL-E 3 의 놀라운 점 첫번째는 글자를 쓴다는 것이고, 두번째는 설명을 이해한다는 것이다. (놀랍지만 놀랍지 않게도 GPT-4V의 리버스 버전이라고 할 수 있겠다)

주간 인기 TOP 10

골빈해커 Chief Maker

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코

장홍석 스페이스오디티 부대표/CPO

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

Arawn Park Senior Engineer & Engineering Lead

자바 25를 사용해야 하는 이유

석민 커리어 코치

효과적인 경력 기술 가이드

레드버스백맨 리서처 앤 라이터

⟪통계청 2024년 생활시간조사로 본 7가지 핵심 데이터⟫

psmon 블룸에이아이 서버 엔지니어

PRD분석 AI툴

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

📈 성과지표(KPI), 이렇게 설정하고 관리합니다

전민우 백엔드개발자

기능 정의의 중요성

달레 Apollo GraphQL Software Engineer

📊 스택 오버플로우 2025년 개발자 설문조사 결과 💡

박세호 피저블 랩 프로덕트 매니저

실제로 동작하는 PRD란

댓글 0

함께 읽은 게시물

< ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

비슷한 게시물

주간 인기 TOP 10

추천 프로필