[0927]모두에게 전하는 모두연 AI뉴스!

  • AI, 보고 듣고 말한다! 멀티모달 대규모 언어 모델 EMOVA 탄생

이 논문은 텍스트, 이미지, 음성을 모두 이해하고 생성할 수 있는 멀티모달 대규모 언어 모델인 EMOVA를 제안합니다. EMOVA는 연속적인 시각 인코더와 의미-음향 분리된 음성 토크나이저를 통해 멀티모달 데이터를 효과적으로 처리합니다. 텍스트를 중심으로 멀티모달 정렬을 수행하여, 부족한 이미지-텍스트-음성 데이터 없이도 멀티모달 학습을 가능하게 하고, 시각-언어 및 음성 능력을 향상시킵니다. 또한, 가벼운 스타일 모듈을 통해 다양한 음성 스타일 제어를 지원하여 풍부한 감정 표현이 가능한 음성 대화를 생성합니다. EMOVA는 시각-언어 및 음성 벤치마크에서 모두 최첨단 성능을 달성하며, 멀티모달 모델의 새로운 표준을 제시합니다.


https://huggingface.co/papers/2409.18042


  • 마스크 쓰고 날아오르다! MaskLLM, LLM 추론의 새로운 패러다임

이 논문은 대규모 언어 모델(LLM)의 추론 효율성을 향상시키기 위한 학습 가능한 가지치기 방법인 MaskLLM을 제안합니다. MaskLLM은 LLM에 N:M(Semi-structured) Sparsity를 적용하여 메모리 및 계산 효율성을 개선하는 것을 목표로 합니다. 기존의 일회성 가지치기 방법과 달리, MaskLLM은 마스크 선택 문제를 확률적 관점에서 접근하여 각 마스크 후보에 확률을 할당하고 마스크 선택을 확률적 샘플링 프로세스로 모델링합니다. Gumbel Softmax를 통해 미분 가능한 샘플링을 가능하게 하고, 대규모 데이터셋에서 end-to-end 학습을 통해 LLM의 언어 모델링 손실을 직접적으로 최적화합니다. 또한, 사전 마스크를 통해 마스크의 전이 학습을 가능하게 하여 다양한 작업 및 도메인에서 효율적인 가지치기 학습을 지원합니다. 실험 결과, MaskLLM은 LLaMA-2, Nemotron-4, GPT-3 등 다양한 LLM에서 기존 방법보다 우수한 성능을 보였으며, 특정 작업에 맞춤형 마스크를 학습하여 무손실 압축을 달성하기도 했습니다.


https://huggingface.co/papers/2409.17481


데이터사이언티스트 취업, 전문 매니저가 알려드려요! 세미나 참여하려면? https://bit.ly/3YBFXNf

Paper page - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

huggingface.co

Paper page - EMOVA: Empowering Language Models to See, Hear and Speak with Vivid Emotions

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 9월 27일 오전 6:05

댓글 0