[0220]모두에게 전하는 모두연 AI뉴스!

  • Zonos-v0.1: 고품질 오픈소스 TTS 모델 공개!

Zonos-v0.1은 20만 시간 이상의 다국어 음성 데이터로 훈련된 오픈소스 TTS 모델입니다. 텍스트 입력과 스피커 임베딩 또는 오디오 프리픽스를 사용해 자연스러운 음성을 생성하며, 몇 초 분량의 참조 음성으로 음성 복제도 가능합니다. 사용자는 발화 속도, 음높이, 감정 등을 조절할 수 있으며, 출력 음성은 44kHz 샘플링 레이트를 가집니다.
모델은 eSpeak 기반의 음소화 과정을 거치며, 1.6B 트랜스포머 및 SSM을 백본으로하는 하이브리드 구조를 사용합니다. Apache 2.0 라이선스로 공개되었으며, Huggingface에서 다운로드 가능하고 API 기반 서비스도 제공됩니다. 상용 TTS와 비교해도 높은 품질을 자랑하며, 무료 및 유료 구독 옵션을 지원합니다.


https://github.com/Zyphra/Zonos


  • 구글 위스크(Whisk): 이미지로 창작하는 새로운 AI 도구!

구글 랩스가 새로운 생성형 AI 도구 위스크(Whisk)를 한국에서 선보였습니다. 위스크는 기존 텍스트 기반 프롬프트 없이도 이미지만으로 창의적인 결과물을 생성할 수 있는 도구입니다. 사용자가 원하는 피사체, 장면, 스타일의 이미지를 업로드하면, 이를 분석해 새로운 이미지를 만들어주는 방식이죠.
이 과정에서 구글의 최신 AI 모델인 '제미나이(Gemini)'와 '이마젠 3(Imagen 3)'가 활용되어, 입력 이미지의 본질을 반영한 결과물을 생성합니다. 빠르게 다양한 시각적 아이디어를 탐색할 수 있도록 설계된 만큼, 창작 작업에 유용할 것으로 기대됩니다. 위스크는 현재 구글 랩스에서 체험할 수 있습니다.


https://blog.google/intl/ko-kr/company-news/technology/whisk-kr/


2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS


데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A

GitHub - Zyphra/Zonos: Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS providers.

GitHub

GitHub - Zyphra/Zonos: Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS providers.

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 2월 20일 오전 7:17

댓글 0