Selective Vision is the Challenge for Visual Reasoning: A Benchmark for Visual Argument Understanding
arXiv.org
AI, 그림 속 숨은 메시지를 읽을 수 있을까? - VisArgs 데이터셋으로 알아보는 시각적 논증 이해
연세대학교에서 나온 이번 논문은 시각적 논증을 이해하는 데 필요한 능력을 평가하기 위해 설계된 데이터셋인 VisArgs를 소개합니다. 시각적 논증은 이미지를 통해 특정 결론에 대한 설득을 목표로 하는 시각적 메시지입니다. VisArgs는 1,611개의 이미지와 각 이미지에 대한 시각적 전제, 상식적 전제, 그리고 이러한 전제들을 결론으로 연결하는 추론 트리를 포함합니다. 이 데이터셋을 통해 3가지 작업을 제안하며, 이는 전제 지역화, 전제 식별, 그리고 결론 추론입니다. 실험 결과, 현재 AI 모델들은 이미지 내에서 시각적 전제를 식별하는 데에는 어느 정도 성공하지만, 주어진 결론과 관련된 전제를 식별하는 데에는 어려움을 겪는다는 것을 보여줍니다. 이는 시각적 논증 이해에 있어서 선택적 집중 능력, 즉 관련 시각적 단서를 선택하는 능력이 중요한 병목 지점임을 시사합니다.
https://arxiv.org/abs/2406.18925
강한 LRH, 깨지다! - RNN 모델이 밝혀낸 '양파 표현'의 비밀
본 논문은 강한 선형 표현 가설(LRH)에 대한 반례를 제시합니다. 강한 LRH는 모든 개념이 활성화 공간에서의 방향으로 표현된다는 것을 의미합니다. 그러나 GRU(Gated Recurrent Units) 기반 RNN 모델이 간단한 반복 작업을 수행할 때, 각 토큰의 위치를 방향이 아닌 크기(magnitude)를 통해 표현하는 것을 발견했습니다. 이러한 표현은 '양파 표현(onion representations)'이라고 불리며, 선형 부분 공간에 위치시킬 수 없는 계층적 특징을 갖습니다. 즉, 각 토큰은 동일한 방향을 가지지만, 토큰 임베딩의 크기가 위치를 결정하며, 여러 위치에 동일한 토큰이 있는 경우 동일한 방향이 다른 스케일링 요소로 추가됩니다. 또한, 메모리는 스케일링된 토큰 임베딩의 합이므로 특정 스케일과 관련된 위치를 분리하는 것은 불가능하며, 가장 지배적인 스케일을 가진 토큰만 추출할 수 있습니다. 이러한 결과는 해석 가능성 연구가 LRH에 국한되어서는 안 된다는 것을 시사하며, 더 넓은 범위의 기술을 고려해야 함을 강조합니다.
https://arxiv.org/pdf/2408.10920
데이터사이언티스트 취업, 전문 매니저가 알려드려요! 세미나 참여하려면? https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 25일 오전 7:09
📰 대학생이 40년만에 해시테이블의 성능 향상을 이뤄냈다고
... 더 보기진
... 더 보기개
... 더 보기