Paper page - Soundwave: Less is More for Speech-Text Alignment in LLMs
huggingface.co
Soundwave: 적은 데이터로 음성 LLM 성능 UP!
기존의 음성 기반 대규모 언어 모델(LLM)은 일반적으로 훈련을 위해 대규모 주석 데이터에 의존하는 반면 데이터 효율적인 훈련은 심층적으로 논의되지 않았습니다. 이 논문에서는 음성과 텍스트 간의 두 가지 근본적인 문제, 즉 표현 공간 격차와 시퀀스 길이 불일치에 중점을 둡니다. 이러한 문제를 해결하기 위해 효율적인 훈련 전략과 새로운 아키텍처를 활용하는 Soundwave를 제안합니다. 결과는 Soundwave가 훈련 데이터의 50분의 1만 사용하여 음성 번역 및 AIR-Bench 음성 작업에서 고급 Qwen2-Audio를 능가하는 것으로 나타났습니다. 추가 분석 결과 Soundwave는 대화 중에도 여전히 지능을 유지하는 것으로 나타났습니다. Soundwave는 더 적은 훈련 데이터, 더 낮은 훈련 비용, 더 적은 음성 시퀀스로 더 나은 성능을 제공합니다.
https://huggingface.co/papers/2502.12900
시각-공간 지능 탑재! Magma, UI 탐색과 로봇 조작까지
Magma는 디지털 및 물리적 환경 모두에서 작동할 수 있는 다중 모드 AI 에이전트 기반 모델입니다. 기존 비전-언어 모델을 확장하여 언어적 지능과 함께 시각-공간적 지능을 갖추고 UI 탐색, 로봇 조작 등의 에이전트 작업을 수행할 수 있습니다. Magma는 이미지, 비디오, 로봇 데이터 등 다양한 유형의 데이터를 통해 사전 훈련되었으며, 이미지 속 실행 가능한 시각적 객체는 동작 접지를 위한 마크 세트(SoM)로, 비디오 속 객체 이동은 동작 계획을 위한 마크 궤적(ToM)으로 레이블링되었습니다. 실험 결과 SoM과 ToM은 Magma 모델의 공간-시간적 지능 획득에 크게 기여하는 것으로 나타났으며, Magma는 UI 탐색 및 로봇 조작 작업에서 기존 모델 대비 뛰어난 성능을 보였습니다.
https://huggingface.co/papers/2502.13130
2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는
데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 19일 오전 7:50
Q) 🙋♀️ 데이터를 활용해 UX를 개선했다는 걸 잘 보여주고 싶어요. 포폴에서 어떤 식으로 서술하면 좋을까요? (예비 디자이너 분)
... 더 보기C
... 더 보기MCP는 기술적으로는 거의 순수하게 Function Calling의 Thin Wrapper에 불과함.
다만, 현재 대부분의 애플리케이션이 Function Calling을 지원하지 않는 상태라, LLM에 Function Calling을 주입할 수 있는 서버를 쉽게 만들 수 있는 라이브러리를 제공했던 것이 MCP를 확산시키는 데에 크게 기여를 한 것.