[0710]모두에게 전하는 모두연 AI뉴스!
* Vision Language Models are blind GPT-4o, Gemini-1.5 Pro 등, 시각 능력을 갖춘 대규모 언어 모델들(VLM)은 수많은 이미지-텍스트 처리 애플리케이션을 구동하고 기존의 Vision-understanding 벤치마크에서 높은 점수를 받고 있습니다. 미국 어번 대학교와 캐나다 앨버타 대학교의 공동 연구진들은 이런 VLM의 작업 수행 능력에 의구심을 가지고, 인간에게는 터무니없이 쉬운 7가지의 시각적 과제로 구성된 벤치마크를 제작하였습니다. 두 원이 겹치는지 여부, 두 선이 교차하는지 여부, 단어에서 어떤 글자가 원으로 둘러싸여 있는지, 올림픽 로고와 유사한 이미지에서 원의 개수를 세는 것 등으로 구성된 이 벤치마크에서, 놀랍게도 VLM을 대표하는 GPT-4o, Gemini 1.5 Pro, Claude Sonnet-3, Claude Sonnet-3.5은 충격적으로 낮은 성능을 보여주었습니다. 이는 이들의 시각이 최선의 경우 근시를 가진 사람이 미세한 세부 사항을 흐릿하게 보는 것과 같고, 최악의 경우 지능적인 맹인이 교육받은 추측을 하는 것과 같다는 점을 시사합니다. https://vlmsareblind.github.io/ * 초상화 이미지에서 고품질 3D 아바타를 생성할 수 있는 RodinHD 2D 이미지에서 3D 객체, 특히 사람의 초상화에서 아바타를 다루는 연구는 각광받는 주제이지만 어려운 주제이기도 합니다. 사람의 헤어스타일과 같은 복잡한 디테일을 포착하는 것이 성공하기 힘들기 때문입니다. Microsoft Aia와 중국과학기술대의 공동 연구진은 이런 디테일을 포착하는 데에 실패하는 이유가, 다양한 각도에서 생성된 초상화의 트리플레인(triplanes)을 순차적으로 맞출 때 발생하며, 이는 MLP 디코더 공유 방식 때문에 발생하는 망각 때문임을 확인하였습니다. 이 문제를 극복하기 위해, 연구진은 새로운 데이터 스케줄링 전략과 가중치 통합 정규화 항을 제안하며, 디코더가 더 선명한 세부 사항을 렌더링하는 능력을 가졌다는 것을 증명하였습니다. 연구진이 제안한 모델은 풍부한 2D 텍스처의 단서를 포착하는 더 세밀한 계층적 표현을 계산하고 이를 다중 레이어의 3D diffusion model에 cross-attention를 통해 주입함으로써 초상화 이미지의 가이드 효과를 최적화합니다. 트리플레인에 최적화된 노이즈 스케줄로 46K 아바타에 대해 훈련된 결과, 모델은 기존 방법들보다 현저히 나은 세부 사항을 가진 3D 아바타를 생성할 수 있으며, 실제 환경의 초상화 입력에도 일반화할 수 있었습니다. https://rodinhd.github.io/ AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK