Now Hear This: World’s Most Flexible Sound Machine Debuts
NVIDIA Blog
텍스트와 오디오를 입력으로 사용하여 음악, 음성 및 소리를 결합하는 NVIDIA의 새로운 생성형 AI 모델을 내놓았습니다.
🍅 Fugatto(Foundational Generative Audio Transformer Opus 1)
텍스트와 오디오 파일의 조합으로 설명된 프롬프트를 기반으로 음악, 음성 및 소리를 생성하거나 변환하는 생성형 AI 모델
텍스트 프롬프트를 기반으로 음악을 생성하거나, 기존 곡에서 악기를 제거하거나 추가하고, 음성의 억양이나 감정 변경도 가능
다양한 오디오 생성 및 변환 작업을 지원하며, 여러 학습된 능력의 상호작용에서 새로운 기능이 나타나는 발현적 특성(emergent properties)과 자유로운 지시를 결합하는 능력을 보여주는 최초의 생성형 AI 모델
오디오 합성과 변환에서 비지도 다중 작업 학습이 데이터와 모델 규모로부터 자연스럽게 발전하는 형태
세부 조정과 소량의 노래 데이터를 활용한 연구를 통해 Fugatto는 텍스트 프롬프트를 기반으로 고품질의 노래를 생성하는 등 사전 훈련되지 않은 작업도 수행
🍊 Fugatto의 내부 작동 원리
음성 모델링, 오디오 보코딩 및 오디오 이해와 같은 이전 작업을 기반으로 한 생성형 변환기(transformer) 모델
완전한 버전은 25억 개의 매개변수를 사용
32개의 NVIDIA H100 텐서 코어 GPU가 장착된 NVIDIA DGX 시스템으로 학습
인도, 브라질, 중국, 요르단, 한국 등 다양한 국가의 사람들이 협력해 만들었으며, 이 협력은 Fugatto의 다중 억양 및 다국어 기능을 강화
팀은 다각적인 전략을 사용해 데이터를 생성하고 지시를 작성함으로써 모델의 작업 범위를 크게 확장했으며, 더 높은 정확도를 달성하고 추가 데이터 없이도 새로운 작업을 가능케
🍏 주요 특징
사용 사례의 샘플 플레이리스트
음악 프로듀서는 Fugatto를 사용해 곡 아이디어를 빠르게 프로토타입으로 만들거나 편집하고, 다양한 스타일, 음성 및 악기를 시도할 수 있습니다.
또한 효과를 추가하거나 기존 트랙의 오디오 품질을 개선할 수도 있습니다.
광고 에이전시는 Fugatto를 활용해 기존 캠페인을 여러 지역이나 상황에 맞게 빠르게 조정하고, 음성 해설에 다양한 억양과 감정을 적용할 수 있습니다.
언어 학습 도구는 사용자가 원하는 목소리를 사용할 수 있도록 개인화할 수 있습니다. 예를 들어, 온라인 강의가 가족이나 친구의 목소리로 진행된다고 상상해 보세요.
비디오 게임 개발자는 게임 플레이 중 변화하는 액션에 맞게 미리 녹음된 자산을 수정하거나, 텍스트 지시와 선택적 오디오 입력을 통해 즉석에서 새로운 자산을 생성할 수 있습니다.
사용자에게 창작 통제권 제공
추론 과정에서 Fugatto는 ComposableART라는 기술을 사용해 훈련 중에 별도로 학습된 지시를 결합합니다. 예를 들어, 슬픈 감정의 프랑스 억양으로 텍스트를 말하도록 요청할 수 있습니다.
모델이 지시를 보간(interpolation)하는 능력은 사용자에게 세부적인 제어 권한을 제공합니다. 예를 들어, 억양의 강도나 슬픔의 정도를 조정할 수 있습니다.
출처: https://blogs.nvidia.com/blog/fugatto-gen-ai-sound-model/
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 12월 2일 오후 1:18