[0709]모두에게 전하는 모두연 AI뉴스!

  • 시각-언어 AI의 새 지평: 순수 디코더 기반 접근법

기존 시각-언어 모델들은 주로 시각 인코더와 대규모 언어 모델의 조합에 의존하지만, 이는 모델의 유연성과 효율성을 제한할 수 있습니다. 이번 논문에서는 인코더 없는 순수 시각-언어 모델 훈련을 위한 효과적인 방법을 제시합니다. 핵심 전략으로 통합 디코더 내 시각-언어 표현 연결과 추가 감독을 통한 시각 인식 능력 향상을 제안합니다. 이를 바탕으로 개발된 EVE 모델은 단 3,500만 개의 공개 데이터만을 사용하여 훈련되었음에도 불구하고, 기존 인코더 기반 모델들과 견줄 만한 성능을 다양한 시각-언어 벤치마크에서 보여줍니다. 특히, 훈련 과정과 데이터가 공개되지 않은 Fuyu-8B 모델을 크게 능가합니다.


https://huggingface.co/papers/2406.11832


  • FunAudioLLM: 음성 AI의 새로운 지평을 여는 혁신적 모델 패밀리

FunAudioLLM은 인간과 대규모 언어 모델 간의 자연스러운 음성 상호작용을 향상시키기 위해 설계된 모델 패밀리입니다. 핵심 모델인 SenseVoice는 다국어 음성 인식, 감정 인식, 오디오 이벤트 감지를 담당하며, CosyVoice는 다양한 언어, 음색, 말하기 스타일, 화자 정체성을 제어할 수 있는 자연스러운 음성 생성을 가능하게 합니다. SenseVoice는 저지연 및 고정밀 ASR을, CosyVoice는 다국어 음성 생성과 제로샷 학습, 교차 언어 음성 복제, 지시 따르기 능력을 제공합니다. 이 모델들은 오픈소스로 공개되었으며, LLM과 통합하여 음성 번역, 감정적 음성 채팅, 상호작용형 팟캐스트 등 다양한 응용 프로그램을 가능하게 합니다.


https://huggingface.co/papers/2407.04051AI


개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK

Paper page - Unveiling Encoder-Free Vision-Language Models

huggingface.co

Paper page - Unveiling Encoder-Free Vision-Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 9일 오전 6:11

댓글 0