Paper page - NVLM: Open Frontier-Class Multimodal LLMs
huggingface.co
NVLM 1.0: 비전과 언어의 경계를 허무는 혁신적인 MLLM
엔비디아에서 최첨단 비전 언어 능력과 텍스트 전용 성능을 갖춘 개척적인 멀티모달 대형 언어 모델(MLLM)인 NVLM 1.0을 만들었습니다. 세 가지 아키텍처, 즉 디코더 전용 NVLM-D, 교차 주의 기반 NVLM-X 및 하이브리드 NVLM-H를 특징으로 하는 NVLM-1.0은 큐레이팅된 데이터 혼합으로 훈련되어 최고의 독점 및 오픈 액세스 모델과 경쟁하면서 최첨단 성능을 달성합니다. 또한 이 논문에서는 아키텍처 설계, 타일 기반 동적 고해상도 입력, 멀티모달 교육 데이터 큐레이션, 멀티모달 교육 후에도 텍스트 전용 성능을 개선하는 방법에 대한 주요 통찰력을 제공합니다. 모델 가중치는 오픈 소스이며 커뮤니티에 기술 정보를 제공하여 추가 연구 및 개발을 촉진하는 것을 목표로 합니다.
https://huggingface.co/papers/2409.11402
스스로 진화하는 LLM: SCoRe로 자체 수정 능력 극대화
이 논문은 대규모 언어 모델(LLM)이 자체적으로 오류를 수정하는 능력을 향상시키는 방법을 연구합니다. 기존의 방법들은 여러 모델을 사용하거나 더 뛰어난 모델 또는 다른 형태의 감독에 의존하는 한계가 있었습니다. 이를 극복하기 위해 SCoRe라는 멀티턴 온라인 강화 학습(RL) 접근 방식을 개발했습니다. SCoRe는 모델이 자체 생성한 데이터만을 사용하여 LLM의 자체 수정 능력을 크게 향상시킵니다. 핵심 아이디어는 모델이 자체적으로 생성한 수정 궤적에 대한 훈련을 통해 훈련 데이터와 모델 응답 간의 분포 불일치 문제를 해결하고, 적절한 정규화를 통해 학습 프로세스를 테스트 시 효과적인 자체 수정 전략을 학습하도록 유도하는 것입니다. 실험 결과, SCoRe는 Gemini 1.0 Pro 및 1.5 Flash 모델에 적용되었을 때 최첨단 자체 수정 성능을 달성하여 MATH 및 HumanEval 벤치마크에서 기본 모델의 자체 수정 능력을 각각 15.6% 및 9.1% 향상시켰습니다.
https://huggingface.co/papers/2409.12917
이론과 실무를 잇-다!
데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 9월 23일 오전 5:48