Paper page - MM-IFEngine: Towards Multimodal Instruction Following
huggingface.co
고품질 데이터와 엄격한 평가: MLLM 지시 따르기 성능 향상을 위한 통합 프레임워크
멀티모달 대형 언어 모델(MLLM)의 지시 따르기(Instruction Following, IF) 능력은 중요하지만, 기존 학습 데이터는 부족하고 벤치마크는 단순하며 평가 방식도 부정확합니다. 이 연구는 고품질 이미지-지시 쌍 생성 파이프라인 'MM-IFEngine'과 이를 통해 생성된 대규모 학습 데이터셋(MM-IFInstruct-23k, MM-IFDPO-23k)을 제안합니다. 또한, 답변 형식 제약(compose-level)과 이미지 인식 기반 제약(perception-level)을 포함한 다양한 제약 조건을 갖추고, 규칙 기반 및 판단 모델을 결합한 하이브리드 평가 방식을 사용하는 도전적인 벤치마크 'MM-IFEval'을 소개합니다. 생성된 데이터셋으로 MLLM을 학습시킨 결과, 여러 IF 벤치마크에서 성능이 크게 향상되었습니다.
https://huggingface.co/papers/2504.07957
Kimi-VL-Thinking: CoT와 RL로 강화, 복잡 추론 위한 효율적 사고 모델
이 보고서는 효율적인 오픈소스 MoE(Mixture-of-Experts) 비전-언어 모델(VLM) 'Kimi-VL'을 소개합니다. 언어 디코더에서 2.8B 파라미터만 활성화하면서도 고급 멀티모달 추론, 128K 토큰의 긴 컨텍스트 이해, 강력한 에이전트 및 OCR 기능을 제공합니다. 또한, 네이티브 해상도 비전 인코더 MoonViT를 탑재하여 고해상도 시각 입력 처리에 능숙합니다. Kimi-VL은 GPT-40-mini, Qwen2.5-VL-7B 등과 경쟁하며, 긴 사고 연쇄(CoT) 학습과 강화학습으로 개선된 'Kimi-VL-Thinking' 변형은 복잡한 추론 벤치마크에서도 뛰어난 성능을 보여 효율적인 사고 모델의 새로운 기준을 제시합니다
https://huggingface.co/papers/2504.07491
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 11일 오전 6:43