[0923]모두에게 전하는 모두연 AI뉴스!

NVLM 1.0: 비전과 언어의 경계를 허무는 혁신적인 MLLM

엔비디아에서 최첨단 비전 언어 능력과 텍스트 전용 성능을 갖춘 개척적인 멀티모달 대형 언어 모델(MLLM)인 NVLM 1.0을 만들었습니다. 세 가지 아키텍처, 즉 디코더 전용 NVLM-D, 교차 주의 기반 NVLM-X 및 하이브리드 NVLM-H를 특징으로 하는 NVLM-1.0은 큐레이팅된 데이터 혼합으로 훈련되어 최고의 독점 및 오픈 액세스 모델과 경쟁하면서 최첨단 성능을 달성합니다. 또한 이 논문에서는 아키텍처 설계, 타일 기반 동적 고해상도 입력, 멀티모달 교육 데이터 큐레이션, 멀티모달 교육 후에도 텍스트 전용 성능을 개선하는 방법에 대한 주요 통찰력을 제공합니다. 모델 가중치는 오픈 소스이며 커뮤니티에 기술 정보를 제공하여 추가 연구 및 개발을 촉진하는 것을 목표로 합니다.

https://huggingface.co/papers/2409.11402

스스로 진화하는 LLM: SCoRe로 자체 수정 능력 극대화

이 논문은 대규모 언어 모델(LLM)이 자체적으로 오류를 수정하는 능력을 향상시키는 방법을 연구합니다. 기존의 방법들은 여러 모델을 사용하거나 더 뛰어난 모델 또는 다른 형태의 감독에 의존하는 한계가 있었습니다. 이를 극복하기 위해 SCoRe라는 멀티턴 온라인 강화 학습(RL) 접근 방식을 개발했습니다. SCoRe는 모델이 자체 생성한 데이터만을 사용하여 LLM의 자체 수정 능력을 크게 향상시킵니다. 핵심 아이디어는 모델이 자체적으로 생성한 수정 궤적에 대한 훈련을 통해 훈련 데이터와 모델 응답 간의 분포 불일치 문제를 해결하고, 적절한 정규화를 통해 학습 프로세스를 테스트 시 효과적인 자체 수정 전략을 학습하도록 유도하는 것입니다. 실험 결과, SCoRe는 Gemini 1.0 Pro 및 1.5 Flash 모델에 적용되었을 때 최첨단 자체 수정 성능을 달성하여 MATH 및 HumanEval 벤치마크에서 기본 모델의 자체 수정 능력을 각각 15.6% 및 9.1% 향상시켰습니다.

https://huggingface.co/papers/2409.12917

이론과 실무를 잇-다!

데이터로 비즈니스 가치를 만드는 데이터 사이언티스트 전문 과정 모집 중 : https://bit.ly/3YBFXNf

Paper page - NVLM: Open Frontier-Class Multimodal LLMs

huggingface.co

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 9월 23일 오전 5:48

비슷한 게시물

주간 인기 TOP 10

김의중 위대한상상(요기요) 개발자

도구를 넘어선 개발자의 역량: "Next.js 꼭 써야할까?"

조현욱 페이워치 소프트웨어 엔지니어

동기부여는 회사가 책임져 주세요

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

당신이 꼭 사용해보았으면 좋을 DATA/AI 도구 리스트

송요창 배민 프론트엔드 프로그래머

팀네이버의 컨퍼런스 DAN24

한기용 UpZen 창업자 대표

변화가 빠른 IT 업계에서 어떻게 오랜 시간 동안 워라밸을 유지했

골빈해커 Chief Maker

백오피스 서버를 Vercel 에서 Fly.io로 옮겼다. RSC

정종윤 네이버 프론트엔드 개발자

🙋🏻‍♂️ 개발자 면접 1분 자기소개, 이렇게 준비하자

장혜림 (메이) 프리랜서 테크 비즈 라이터

오늘은 AI 관련 굵직한 소식들이 유난히 쏟아지는 날입니다.

Somewon Yoon 프로젝트 썸원 Content Owner

어쩌면 한국에서 로컬 OTT가 살아남는 거의 유일한 방법 ㄷㄷ

우디 Product Designer

📝 포트폴리오에 ‘있는’을 쓰지 않아도 돼요

[0923]모두에게 전하는 모두연 AI뉴스!

댓글 0

비슷한 게시물

주간 인기 TOP 10

추천 프로필