[0220]모두에게 전하는 모두연 AI뉴스!
* Zonos-v0.1: 고품질 오픈소스 TTS 모델 공개! Zonos-v0.1은 20만 시간 이상의 다국어 음성 데이터로 훈련된 오픈소스 TTS 모델입니다. 텍스트 입력과 스피커 임베딩 또는 오디오 프리픽스를 사용해 자연스러운 음성을 생성하며, 몇 초 분량의 참조 음성으로 음성 복제도 가능합니다. 사용자는 발화 속도, 음높이, 감정 등을 조절할 수 있으며, 출력 음성은 44kHz 샘플링 레이트를 가집니다. 모델은 eSpeak 기반의 음소화 과정을 거치며, 1.6B 트랜스포머 및 SSM을 백본으로하는 하이브리드 구조를 사용합니다. Apache 2.0 라이선스로 공개되었으며, Huggingface에서 다운로드 가능하고 API 기반 서비스도 제공됩니다. 상용 TTS와 비교해도 높은 품질을 자랑하며, 무료 및 유료 구독 옵션을 지원합니다. https://github.com/Zyphra/Zonos * 구글 위스크(Whisk): 이미지로 창작하는 새로운 AI 도구! 구글 랩스가 새로운 생성형 AI 도구 위스크(Whisk)를 한국에서 선보였습니다. 위스크는 기존 텍스트 기반 프롬프트 없이도 이미지만으로 창의적인 결과물을 생성할 수 있는 도구입니다. 사용자가 원하는 피사체, 장면, 스타일의 이미지를 업로드하면, 이를 분석해 새로운 이미지를 만들어주는 방식이죠. 이 과정에서 구글의 최신 AI 모델인 '제미나이(Gemini)'와 '이마젠 3(Imagen 3)'가 활용되어, 입력 이미지의 본질을 반영한 결과물을 생성합니다. 빠르게 다양한 시각적 아이디어를 탐색할 수 있도록 설계된 만큼, 창작 작업에 유용할 것으로 기대됩니다. 위스크는 현재 구글 랩스에서 체험할 수 있습니다. https://blog.google/intl/ko-kr/company-news/technology/whisk-kr/ 2017년부터 가치를 이어온 AI 명문 아이펠리서치 온라인13기 3월 개강 모집중 : https://bit.ly/4jzwrSS 데이터와 AI로 미래를 예측하는 데이터 사이언티스트 4기 모집 : https://bit.ly/3WJ4C0A