[0102]모두에게 전하는 모두연 AI뉴스!
* Step-by-step으로 기하학적 도형 인식하기: Slow Perception 기존 비전 언어 모델(LVLM)들이 복잡한 이미지는 잘 인식하지만 단순한 선으로 이루어진 기하학적 도형에는 약점을 보였습니다. 이 문제를 해결하기 위해 실제 사람이 인식하는 것처럼 도형을 작은 단위로 나누어서 인식하는 모델을 제안했습니다. 도형을 인식하기 위해 크게 두 단계로 나누었는데, 첫 번째는 중첩되어있는 도형을 단순한 유닛으로 나누고, 두 번째는 나뉜 선의 경우 단위 길이 만큼씩 나누어서 최종 길이를 예측 하는 방식으로 인식하였습니다. Mathvista의 기하학 문제를 통해 테스트한 결과, 해당 모델로 이미지를 파싱한 정보를 덧붙였을 때 정확도아 6.73% 포인트 상승하는 효과가 있었습니다. https://huggingface.co/papers/2412.20631 * 단순하게 생각해! o1-like 모델의 overthinking 방지하기 openAI의 o1과 유사한 모델들은 사고과정을 통해 복잡한 문제를 더 잘 풀 수 있게 되었습니다. 하지만 2+3과 같은 단순한 문제에도 불필요하게 길게 사고하는 문제점이 있었습니다. 텐센트 AI 랩에서는 이 문제를 관찰하고 모델의 효율성을 평가하는 ‘결과 효율성’과 ‘과정 효율성’이라는 지표를 제시했습니다. 이를 기반으로 모델이 불필요한 사고(overthinking)를 줄이기 위한 모델이 짧고 효율적인 응답을 생성하도록 하는 길이 중심 최적화 방법과 모델의 응답을 단순화하는 자기지도학습 방법을 제시했습니다. 실험 결과 제안된 방법을 적용한 모델은 단순한 문제부터 복잡한 문제까지 성능은 유지하면서도 토큰 사용량을 크게 줄일 수 있었었습니다. https://huggingface.co/papers/2412.21187