Kimjeongeun

모두의연구소 아이펠캠퍼스 퍼실리테이터

[0709]모두에게 전하는 모두연 AI뉴스!

시각-언어 AI의 새 지평: 순수 디코더 기반 접근법

기존 시각-언어 모델들은 주로 시각 인코더와 대규모 언어 모델의 조합에 의존하지만, 이는 모델의 유연성과 효율성을 제한할 수 있습니다. 이번 논문에서는 인코더 없는 순수 시각-언어 모델 훈련을 위한 효과적인 방법을 제시합니다. 핵심 전략으로 통합 디코더 내 시각-언어 표현 연결과 추가 감독을 통한 시각 인식 능력 향상을 제안합니다. 이를 바탕으로 개발된 EVE 모델은 단 3,500만 개의 공개 데이터만을 사용하여 훈련되었음에도 불구하고, 기존 인코더 기반 모델들과 견줄 만한 성능을 다양한 시각-언어 벤치마크에서 보여줍니다. 특히, 훈련 과정과 데이터가 공개되지 않은 Fuyu-8B 모델을 크게 능가합니다.

https://huggingface.co/papers/2406.11832

FunAudioLLM: 음성 AI의 새로운 지평을 여는 혁신적 모델 패밀리

FunAudioLLM은 인간과 대규모 언어 모델 간의 자연스러운 음성 상호작용을 향상시키기 위해 설계된 모델 패밀리입니다. 핵심 모델인 SenseVoice는 다국어 음성 인식, 감정 인식, 오디오 이벤트 감지를 담당하며, CosyVoice는 다양한 언어, 음색, 말하기 스타일, 화자 정체성을 제어할 수 있는 자연스러운 음성 생성을 가능하게 합니다. SenseVoice는 저지연 및 고정밀 ASR을, CosyVoice는 다국어 음성 생성과 제로샷 학습, 교차 언어 음성 복제, 지시 따르기 능력을 제공합니다. 이 모델들은 오픈소스로 공개되었으며, LLM과 통합하여 음성 번역, 감정적 음성 채팅, 상호작용형 팟캐스트 등 다양한 응용 프로그램을 가능하게 합니다.

https://huggingface.co/papers/2407.04051AI

개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 모집중 : https://bit.ly/4ePP8iK

Paper page - Unveiling Encoder-Free Vision-Language Models

huggingface.co

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 7월 9일 오전 6:11

함께 읽은 게시물

골빈해커

Chief Maker

2일 전

예전부터 생각해왔던 것이지만, 회사에서 내가 무언가를 이뤘다고 생각하는 것이 얼마나 가소로운 생각이었나 싶다. 팀과 조직이 클 수록 그렇다. 나의 결과는 결국 내가 있는, 나를 둘러싼 환경이 결정하는 것이라서, 잘했다고 설레발도, 못했다고 좌절도 할 필요가 없다는 것을 뒤늗게 깨달았다.

댓글 1 • 조회 951

석민

커리어 코치

3일 전

어려움을 극복하는 힘

지

댓글 1 • 저장 3 • 조회 692

비슷한 게시물

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[1210]모두에게 전하는 모두연 AI뉴스!

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0723]모두에게 전하는 모두연 AI뉴스!

HoJoong Kim Senior IT guy

[OpenAI] GPT-4o

최고은 프로덕트 디자이너

🤖생성형 AI 툴로 디자인해보자! (스터디 후기)

진용진 Product manager

구글 AI 프로덕트 리드 Marily Nika가 정리한 AI 알고리즘이 어플리케이션에 어떻게 활용되는지 정리한 맵입니다.

조성래 Seonglae Cho

Sonnet이 GPT4 성능을 따라잡은 이유??

주간 인기 TOP 10

달레 Apollo GraphQL Software Engineer

야근의 관성

변성윤 머신러닝 엔지니어, Engineering Manager

무신사의 대용량 트래픽 경험기

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

기초 프로그래밍을 좀 더 열심히 공부할 걸..

진용진 Product manager

디자인 컴포넌트 기반 AI 프로토타이핑

황경찬(Boaz) P.E.C CEO

AI와 코딩할 때, 혹시 결과만 말하고 계신가요? 얼마 전 프로필

장홍석 스페이스오디티 부대표/CPO

< 인생을 바꾸는 ‘큰 돌멩이’의 법칙 >

이원형 라인플러스 소프트웨어 엔지니어

Gemini CLI가 무료라길래 주말에 사용해봤습니다. 기존에

psmon 웹노리라이터

DDD와 액터모델

골빈해커 Chief Maker

(웹)프론트엔드 개발이 쉬워보인다면 CSS나 WebGL 차력쇼나

레드버스백맨 리서처 앤 라이터

⟪트레바리 <리서치 하는데요> 6번째 시즌을 오픈합니다⟫

[0709]모두에게 전하는 모두연 AI뉴스!

댓글 0

함께 읽은 게시물

어려움을 극복하는 힘

비슷한 게시물

주간 인기 TOP 10

추천 프로필