아마존 멀티모달(이미지+언어) 생성형 AI, GPT-3.5 넘었다?

아마존에서 이미지와 텍스트를 함께 이해하고 답변하는 생성형 AI 모델을 내놨습니다. 1) 이미지와 문제를 함께 입력하면 이에 해당하는 rationale 을 생성하고, 2) 다시 이미지+문제와 1)에서 생성된 rationale 을 함께 입력해서 답변을 생성합니다. GPT-3.5 보다 16퍼센트 더 정확하다고 하네요 (멀티모달모델과 언어모델을 직접 비교하는 것이 정당한지는 의문이긴 합니다만..)

Multimodal Chain-of-Thought Reasoning in Language Models

arXiv.org

Multimodal Chain-of-Thought Reasoning in Language Models

더 많은 콘텐츠를 보고 싶다면?

또는

이미 회원이신가요?

2023년 2월 24일 오전 7:35

 • 

저장 4조회 1,932

댓글 0