GitHub - Zyphra/Zonos: Zonos-v0.1 is a leading open-weight text-to-speech model trained on more than 200k hours of varied multilingual speech, delivering expressiveness and quality on par with—or even surpassing—top TTS providers.
GitHub
Zonos-v0.1: 고품질 오픈소스 TTS 모델 공개!
Zonos-v0.1은 20만 시간 이상의 다국어 음성 데이터로 훈련된 오픈소스 TTS 모델입니다. 텍스트 입력과 스피커 임베딩 또는 오디오 프리픽스를 사용해 자연스러운 음성을 생성하며, 몇 초 분량의 참조 음성으로 음성 복제도 가능합니다. 사용자는 발화 속도, 음높이, 감정 등을 조절할 수 있으며, 출력 음성은 44kHz 샘플링 레이트를 가집니다.
모델은 eSpeak 기반의 음소화 과정을 거치며, 1.6B 트랜스포머 및 SSM을 백본으로하는 하이브리드 구조를 사용합니다. Apache 2.0 라이선스로 공개되었으며, Huggingface에서 다운로드 가능하고 API 기반 서비스도 제공됩니다. 상용 TTS와 비교해도 높은 품질을 자랑하며, 무료 및 유료 구독 옵션을 지원합니다.
https://github.com/Zyphra/Zonos
구글 위스크(Whisk): 이미지로 창작하는 새로운 AI 도구!
구글 랩스가 새로운 생성형 AI 도구 위스크(Whisk)를 한국에서 선보였습니다. 위스크는 기존 텍스트 기반 프롬프트 없이도 이미지만으로 창의적인 결과물을 생성할 수 있는 도구입니다. 사용자가 원하는 피사체, 장면, 스타일의 이미지를 업로드하면, 이를 분석해 새로운 이미지를 만들어주는 방식이죠.
이 과정에서 구글의 최신 AI 모델인 '제미나이(Gemini)'와 '이마젠 3(Imagen 3)'가 활용되어, 입력 이미지의 본질을 반영한 결과물을 생성합니다. 빠르게 다양한 시각적 아이디어를 탐색할 수 있도록 설계된 만큼, 창작 작업에 유용할 것으로 기대됩니다. 위스크는 현재 구글 랩스에서 체험할 수 있습니다.
https://blog.google/intl/ko-kr/company-news/technology/whisk-kr/
2017년부터 가치를 이어온 AI 명문
아이펠리서치 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS
데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 20일 오전 7:17
Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를
... 더 보기