[0712]모두에게 전하는 모두연 AI뉴스!

  • MLLM의 수학 추론을 강화하는 방법, MAVIS

Multi Modal Language Model은 일반적인 Multi Modal 시나리오에서 숙련도를 보이지만, 시각적 맥락에서의 수학 문제 해결 능력은 아직 충분히 탐구되지 않았습니다. 홍콩 중문 대학의 연구자들은 우선 MLLM에서 개선이 필요한 세 가지 주요 영역을 식별했습니다: 수학 도표의 시각적 인코딩, 도표-언어 정렬, 그리고 수학적 추론 능력입니다. MLLM을 위한 최초의 수학적 시각 명령 튜닝 패러다임인 MAVIS를 제안했습니다. 우선 연구자들은 55만 8천 개의 도표-캡션 쌍으로 구성된 MAVIS-Caption을 큐레이팅하여, 대조 학습을 통해 수학 특화 비전 인코더 CLIPMath를 Fine tuning 하였습니다. 이는 개선된 도표 Vision 인코딩을 위해 맞춤화되었습니다. 또한, 연구자들은 MAVIS-Caption을 활용하여 CLIPMath를 LLM과 Projection layer을 통해 Align 시킵니다. 이는 수학 영역에서의 Vision-Language Alignment를 향상시켰습니다. 마지막으로, 연구자들은 MAVIS-Instruct를 소개하였습니다. 90만 개의 세심하게 수집되고 주석이 달린 시각적 수학 문제를 포함하며, 최종적으로 MLLM을 강력한 수학적 추론 능력을 위해 instruct-tuning 하는 데 사용됩니다. MAVIS-Instruct에서, 우리는 각 문제에 대해 완전한 사고 과정(CoT) 근거를 포함하고, 텍스트 중복을 최소화하여 모델이 시각적 요소에 집중하도록 합니다. 데이터셋은 평면 기하학, 해석 기하학, 함수 등을 포함한 광범위한 수학 주제를 다루어 포괄적인 능력을 보장한다고 합니다. MAVIS-7B는 다양한 수학 벤치마크에서 다른 7B 모델 보다 평균적으로 11.0%의 성능 향상을 기록했습니다.


https://github.com/ZrrSkywalker/MAVIS


  • VADER-VID : Gradient와 Reward 모델을 활용하여 더 고품질의 비디오를 생성하는 Diffusion model

일반적인 비디오 확산 모델은 대규모의 Unlabelled 데이터를 사용하여 훈련되기 때문에, 이 모델들을 특정 다운스트림 태스크에 적응시키려면 Fine tuning을 수행해야 합니다. 이 때, 목표로 하는 태스크의 비디오 데이터셋을 수집해야 하는데, 이는 어렵고 지루한 과정입니다. 카네기 멜론의 연구자들은 강력한 vision discriminative model 에서 Preference를 통해 학습된 Pre-trained Reward 모델을 활용하여 Video diffusion model을 태스크에 적응시킵니다. 이러한 모델들은 생성된 RGB 픽셀에 대한 밀도 높은 Gradient 정보를 포함하고 있어, 비디오와 같은 복잡한 탐색 공간에서 효율적인 학습에 중요합니다. 연구자들은 이러한 Reward 모델들로부터의 Gradient를 Video diffusion model로 역전파함으로써 계산 및 샘플 효율적인 정렬이 가능하다는 것을 보여주며, 보상 쿼리와 계산 측면에서 이전의 Gradient를 활용하지 않는 접근 방식들보다 훨씬 더 효율적으로 학습할 수 있음을 보여주었습니다.


https://vader-vid.github.io/


AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK

GitHub - ZrrSkywalker/MAVIS: Mathematical Visual Instruction Tuning for Multi-modal Large Language Models

GitHub

GitHub - ZrrSkywalker/MAVIS: Mathematical Visual Instruction Tuning for Multi-modal Large Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 12일 오전 5:59

댓글 0

    함께 읽은 게시물

    오늘의 나

    미래를 결정하는 건

    ... 더 보기