A Multimodal Textbook for Vision-Language Pretraining
multimodal-interleaved-textbook.github.io
교육용 동영상을 기반으로 한 고품질 이미지-텍스트 데이터셋 multimodal_textbook
중국의 저장 국립대학교에서 Vision Language Model의 학습 개선을 위한 고품질 데이터셋 multimodal_textbook 을 소개하였습니다. 기존의 웹 페이지에서 수집된 이미지-텍스트 쌍 데이터셋들은 낮은 지식 밀도, 느슨한 이미지-텍스트 관계, 이미지 간의 논리적 일관성 부족과 같은 문제를 가지고 있습니다. 연구자들은 인간이 기초 과목을 배우는 데 널리 사용되는 방대한 교육용 동영상을 활용하는 것이 이런 문제를 해결할 것이라 착안하여, 더 풍부한 기초 지식을 담은 고품질 멀티모달 교과서 말뭉치를 VLM pretrain을 위한 데이터셋으로 가공했습니다. 연구팀은 2.5년 분량의 교육용 동영상(22,000시간)을 수집하고, LLM 기반 분류법을 사용해 체계적으로 정리했습니다. 이 과정에서 동영상의 키프레임(시각), 음성 인식(청각), OCR(텍스트) 정보를 추출하여 시간 순서대로 정렬된 멀티모달 교과서 말뭉치를 구축했습니다. 실험 결과, 이 새로운 데이터셋으로 학습된 VLM은 특히 ScienceQA와 MathVista 같은 지식/추론 기반 작업에서 우수한 성능을 보였습니다. 또한 few-shot 학습 상황에서도 시각적, 텍스트적 맥락을 효과적으로 활용할 수 있음이 입증되었습니다.
https://multimodal-interleaved-textbook.github.io/
발전한 추론 모델의 눈높이에 맞는 코딩 능력 평가 벤치마크, CodeElo
OpenAI o1과 o3와 같은 추론 모델의 발전이 이루어짐에 따라, 이들의 고급 경쟁 수준 코딩 능력을 효과적으로 테스트할 수 있는 더 도전적이고 포괄적인 벤치마크 개발의 필요성이 커지고 있습니다. 이에 LiveCodeBench, USACO 등 기존 벤치마크들이 가진 한계점들 : 비공개 테스트 케이스 부재, 특별 심사위원 지원 부족, 실행 환경 불일치 등, 을 극복하고자 Qwen의 개발진들이 새로운 벤치마크, CodeElo를 소개하였습니다. CodeElo 벤치마크는 주로 공식 CodeForces 플랫폼을 기반으로 하며 최대한 플랫폼과 일치하도록 설계되었으며, 연구진들은 CodeForces의 최근 6개월간의 대회 문제들을 대회 부문, 문제 난이도 등급, 문제 알고리즘 태그와 같은 상세 정보와 함께 수집하였습니다. 또한 연구진들은 플랫폼에 직접 문제를 제출하는 심사 방식과 인간 참가자들과 비교 가능한 Elo 등급 계산 시스템을 도입했습니다. 33개의 LLM(30개 오픈소스, 3개 독점)을 대상으로 한 테스트 결과, o1-mini(1578)와 QwQ-32B-Preview(1261)가 가장 우수한 성능을 보였습니다. 반면 다른 모델들은 기초적인 문제들도 해결하지 못하며 하위 20% 수준에 그쳤습니다. 이러한 결과는 알고리즘별 성능과 프로그래밍 언어(C++, Python) 선택에 따른 차이를 포함한 상세 분석을 통해, 향후 LLM의 코딩 능력 개선을 위한 방향을 제시합니다.
https://codeelo-bench.github.io/
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 1월 6일 오전 10:07
이
... 더 보기1. 20대의 스티브 잡스가 했던 행동과 50대에 그가 보여주었던 효율적인 리더십을 혼동하면 안 된다.
AI(LLM) 애플리케이션의 발전 속도가 AI 지능(능력)의 발전 속도를 따라가지 못하고 있는 상태가 되었다. 즉, 이제 AI가 부족한 것이 문제가 아니라, AI의 능력을 100% 활용하지 못하고 있는 것이 문제인 상태가 되었다는 이야기.