GPT-4V 로 살펴보는 LMM 시대의 서막

최근 마이크로소프트에서 "The Dawn of LMMs" 이란 제목의 논문을 발표했습니다.

여기서는 정량적 벤치마킹 대신 정성적 결과를 사용하여 GPT4V의 새로운 기능과 잠재적인 새로운 사용 사례를 엿볼 수 있었습니다. 물론 아직까지는 완전히 신뢰할 수 없는 새로운 기능일지라도 GPT-4V가 이미 수행할 수 있는 기능을 발견하고 미리 살펴보데 의의를 두고 있다고 합니다.

이 논문에서는 세부 카테고리별로 프롬프트와 이미지를 통한 GPT4V 의 결과를 소개하고 있으며, 무려 124개의 이미지 사례를 포함하고 있습니다. 여기서는 모든 사례를 소개할 수 없으므로 한번쯤은 해당 논문을 참고하여 살펴보시는 것을 권장드립니다.


https://arxiv.org/pdf/2309.17421.pdf

* PDF 논문을 html로 변환해주는 arxiv-vanity 사이트의 도움을 받으면 좀 더 수월하게 웹 번역하여 확인해볼 수 있습니다.

논문에 나와 있는 내용은 아래와 같습니다. (*논문의 목차와는 일치하지 않습니다)

 

멀티 모달 개념 이해 및 사용 방법

1. GPT-4V 입력모드 소개
2. GPT-4V 에서의 프롬프트 기법 소개
3. 상호작용을 통한 프롬프트 입력
4. 비전 언어에 대한 이해
5. 멀티 이미지 시퀀싱과 비디오에 대한 이해 

테스트

6. 추상적 시각 추론 및 지능 지수 테스트
7. 사람의 표정에서 감정 읽기 등 감정 지수 테스트

발전 방향 및 가능성

8. 산업, 의료, 자동차 보험, 맞춤형 캡션, 이미지 생성, 에이전트, GUI 영역의 하이라이트
9. LMM 기반의 에이전트들 (멀티모달 플러그인, 멀티모달 체인, 자기성찰, 일관성, LMM 검색 증강)

요약 내용은 아래 링크에서 확인해보세요.

https://revf.tistory.com/300


다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 7일 오후 2:33

 • 

저장 6조회 3,645

댓글 0

    함께 읽은 게시물

    💪 야, 너도 WireMock으로 테스트할 수 있어

    S

    ... 더 보기

    사용자가 공유한 콘텐츠

    -

    사용자가 공유한 콘텐츠

     • 

    저장 39 • 조회 3,997


    요즘 사람들이 가장 많이 AI를 활용하는 분야 Top 10

    1

    ... 더 보기

    How People Are Really Using Gen AI in 2025

    Harvard Business Review

    How People Are Really Using Gen AI in 2025

     • 

    저장 6 • 조회 824


    < 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와 데이터로

    1

    ... 더 보기

    📈 개발자여, 테스트 커버리지에 집착 말자

    ... 더 보기

    개발자여, 테스트 커버리지에 집착 말자 | 요즘IT

    요즘IT

    개발자여, 테스트 커버리지에 집착 말자 | 요즘IT

     • 

    댓글 3 • 저장 139 • 조회 8,047



    🎯 유튜브에 100번째 코딩 테스트 문제 풀이 영상을 올렸습니다!

    ... 더 보기

    달레의 코딩 테스트

    www.youtube.com

    달레의 코딩 테스트