GPT-4V 로 살펴보는 LMM 시대의 서막

최근 마이크로소프트에서 "The Dawn of LMMs" 이란 제목의 논문을 발표했습니다. 여기서는 정량적 벤치마킹 대신 정성적 결과를 사용하여 GPT4V의 새로운 기능과 잠재적인 새로운 사용 사례를 엿볼 수 있었습니다. 물론 아직까지는 완전히 신뢰할 수 없는 새로운 기능일지라도 GPT-4V가 이미 수행할 수 있는 기능을 발견하고 미리 살펴보데 의의를 두고 있다고 합니다. 이 논문에서는 세부 카테고리별로 프롬프트와 이미지를 통한 GPT4V 의 결과를 소개하고 있으며, 무려 124개의 이미지 사례를 포함하고 있습니다. 여기서는 모든 사례를 소개할 수 없으므로 한번쯤은 해당 논문을 참고하여 살펴보시는 것을 권장드립니다. > https://arxiv.org/pdf/2309.17421.pdf * PDF 논문을 html로 변환해주는 arxiv-vanity 사이트의 도움을 받으면 좀 더 수월하게 웹 번역하여 확인해볼 수 있습니다. 논문에 나와 있는 내용은 아래와 같습니다. (*논문의 목차와는 일치하지 않습니다) 멀티 모달 개념 이해 및 사용 방법 > 1. GPT-4V 입력모드 소개 > 2. GPT-4V 에서의 프롬프트 기법 소개 > 3. 상호작용을 통한 프롬프트 입력 > 4. 비전 언어에 대한 이해 > 5. 멀티 이미지 시퀀싱과 비디오에 대한 이해 테스트 > 6. 추상적 시각 추론 및 지능 지수 테스트 > 7. 사람의 표정에서 감정 읽기 등 감정 지수 테스트 발전 방향 및 가능성 > 8. 산업, 의료, 자동차 보험, 맞춤형 캡션, 이미지 생성, 에이전트, GUI 영역의 하이라이트 > 9. LMM 기반의 에이전트들 (멀티모달 플러그인, 멀티모달 체인, 자기성찰, 일관성, LMM 검색 증강) 요약 내용은 아래 링크에서 확인해보세요. https://revf.tistory.com/300

GPT-4V 로 살펴보는 LMM 시대의 서막

알림