GitHub - nari-labs/dia: A TTS model capable of generating ultra-realistic dialogue in one pass.
GitHub
현실적인 대화 생성을 위한 Dia: 1.6B 파라미터 TTS 모델 및 오픈소스 공개
Nari Labs에서 개발한 1.6B 파라미터 텍스트-음성 변환(TTS) 모델인 Dia를 소개합니다. Dia는 텍스트 스크립트에서 직접적으로 매우 현실적인 대화 생성을 목표로 합니다. 기존 TTS 모델의 단조로운 음성 생성을 넘어서, Dia는 오디오 프롬프트를 통한 감정 및 어조 제어, 그리고 웃음, 기침 등 비언어적 표현 생성을 가능하게 하는 기능을 포함합니다. 연구 가속화를 위해 사전 훈련된 모델 체크포인트와 추론 코드를 Hugging Face를 통해 공개적으로 제공합니다(현재 영어만 지원). 또한, 모델의 기능을 시연하고 비교할 수 있는 데모 페이지와 ZeroGPU Space 환경을 제공하여 접근성을 높였습니다. Dia는 화자 태그([S1], [S2])를 이용한 대화 생성, 비언어적 표현 합성, 오디오 프롬프트를 이용한 음성 복제 등 다양한 기능을 지원하며, 연구 및 개발 커뮤니티의 기여를 장려하기 위해 Apache 2.0 라이선스로 배포됩니다. Dia는 고품질 GPU 환경에서 실시간에 가까운 추론 속도를 보이며, 향후 최적화 및 양자화 버전 추가를 계획하고 있습니다.
https://github.com/nari-labs/dia
네이버, 상업용 오픈소스 모델 HyperCLOVA X SEED 공개
네이버가 한국의 소버린 AI(Sovereign AI) 생태계 조성을 목표로 공개한 상업적 활용 가능 오픈소스 AI 모델군, HyperCLOVA X SEED를 공개했습니다. 이는 단순 모델 배포를 넘어, 기업 및 개발자가 자체 AI 역량을 강화하고 특정 비즈니스 요구사항에 맞춰 모델을 튜닝하여 활용할 수 있도록 지원하기 위함입니다. HyperCLOVA X SEED는 3B, 1.5B, 0.5B 파라미터 크기의 세 가지 모델로 구성되어 있으며, 각기 다른 강점을 지닙니다. 특히 3B 모델은 한국어 및 문화 맥락에 특화된 이미지 이해(vision understanding) 능력을 갖추고 있으며, 1.5B 모델은 지시 이행(instruction following) 능력, 0.5B 모델은 경량 환경에서의 자연스러운 한국어 대화 능력을 특징으로 합니다. 이 모델들은 Hugging Face를 통해 배포되며, 한국어 관련 벤치마크에서 동급 크기의 경쟁 모델 대비 우수한 성능을 보였으며, 특히 0.5B 모델은 높은 학습 비용 효율성을 달성했습니다. HyperCLOVA X SEED 공개는 국내 AI 기술 혁신과 생태계 확장에 기여할 것으로 기대됩니다.
https://tinyurl.com/4zbfsdp5
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 24일 오전 6:49