GitHub - PKU-YuanGroup/LLaVA-o1
GitHub
LLaVA 의 진화, LLaVA-o1 공개
LLaVA의 새로운 버전인 LLaVA-o1이 공개되었습니다. LLaVA는 기존의 CoT 방식을 개선한 요약, 시각적 해석, 논리적 추론, 결론 도출의 순차적 단계들을 독립적으로 수행합니다. 이 기법을 사용하여 연구자들은 GPT-o1을 통해 다양한 시각적 질의응답 소스의 샘플들을 통합하고 구조화된 추론 주석을 제공하는 LLaVA-o1-100k 데이터셋을 구축했습니다. 또한 효과적인 추론 시점 스케일링을 가능하게 하는 추론 시점 단계별 빔 서치 방법을 제안했습니다. 해당 방법과 데이터셋을 적용, Llama-3.2-11BVision-Instruct 를 베이스 모델로 훈련된 LLaVA-o1은 기존 VLM이 어려워하는 복잡한 시각적 질의응답 작업에서 정확도를 크게 향상시켰습니다. 단 10만 개의 학습 샘플과 간단하지만 효과적인 추론 시점 스케일링 방법만으로도, LLaVA-o1은 다양한 멀티모달 추론 벤치마크에서 기본 모델보다 8.9% 더 좋은 성능을 보였을 뿐만 아니라, Gemini-1.5-pro, GPT-4o-mini, Llama-3.2-90B-Vision-Instruct와 같은 더 큰 오픈모델 및 상용 모델들의 성능 또한 능가하였습니다.
https://github.com/PKU-YuanGroup/LLaVA-o1
Mistral AI, Pixtral Large 발표
Mistral AI가 124B 오픈 웨이트 멀티모달 모델인 Pixtral Large를 공개하였습니다.
Pixtral Large는 Mistral AI의 멀티모달 제품군의 두 번째 모델이며, 123B 멀티모달 디코더, 1B 매개변수 비전 인코더로 구성되었습니다. 또한 최소 30개의 고해상도 이미지에 적합한 128K 컨텍스트 윈도우를 지원합니다. Mistral Large 2를 기반으로 구축된 Pixtral Large 는 Mistral Large 2의 뛰어난 텍스트 전용 이해 능력을 유지하면서 문서, 차트 및 자연 이미지를 이해할 수 있습니다. 자체 멀티모달 벤치마크 MM-MT-Bench와 복잡한 수학적 추론을 평가하는 MathVista에서 Pixtral Large는 각각 7.4, 69.4의 정답률을 달성하여 Claude 3.5 Sonnet 등의 상용모델과 LLama-3.2 90B 등의 오픈모델의 성능을 능가하였습니다. 또한 복잡한 차트와 문서에 대한 추론 기능 평가 벤치마크인 ChartQA와 DocVQA에서도 GPT-4o와 Gemini-1.5 Pro를 최소 4% 이상 능가하는 성능을 선보였습니다.
https://mistral.ai/news/pixtral-large/
[아이펠 12기] AI 입문부터 활용까지!
코어과정 & 눈문으로 완성하는 리서치과정 : https://bit.ly/40T8YFx
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 11월 19일 오전 6:09