원강민

Product Engineer

AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼

멋진 무료 AI 도구를 사용하여 본인의 목소리나 다른 사람의 목소리를 복제하는 방법을 보여드릴 것입니다. 이 도구를 책임 있게 사용하십시오. 당신이 복제하고자 하는 목소리의 샘플만 제공하면, 이 도구가 나머지를 처리합니다. 최고의 교육 데이터를 얻는 방법을 포함하여 단계별 과정을 안내해 드리겠습니다. Turtle Text-To-Speech는 GitHub에서 무료로 사용할 수 있는 오픈소스 도구입니다. 이것은 자신의 컴퓨터에서 실행할 수 있습니다. 저장소에 설치 지침이 제공되지만, 우리는 Google Collaboration을 사용하여 코드를 클라우드에서 실행할 것입니다. 패키지의 저자가 Google Collaboration을 처음에 제거했지만 인터넷의 다른 좋은 사람들을 위해 사용할 수 있도록 만들었으므로 사용할 것입니다. 그러나 최상의 결과를 원하는 경우에는 설치하여 로컬로 실행하는 것을 권장합니다. 새로운 목소리를 추가하고 복제하는 방법은 이제 매우 간단합니다. 먼저 복제하려는 화자의 오디오 클립을 수집해야 합니다. 이 경우 나의 목소리를 사용하고 음성 세그먼트를 녹음할 수 있는 소프트웨어를 보여드리겠습니다. 오디오 클립은 10초 세그먼트여야 하며, 최소한 3개 세그먼트를 요구하지만, 더 많은 데이터 포인트를 포함할수록 품질이 더욱 개선됩니다. 저장해야 할 오디오 파일은 웹 파일로 저장해야 하며, 22 킬로헤르쯔 샘플링 비율이어야 합니다. 대부분의 오디오 시스템은 44 킬로헤르쯔로 녹음하므로, 22 킬로헤르쯔로 수정해야 합니다. 로컬로 실행하는 경우 "speech" 하위 디렉터리를 만들고 여기에 데이터를 넣어야 합니다. 다른 클라우드를 사용하는 경우, 마지막 세 가지 단계는 약간 다를 수 있습니다. 오디오 녹음을 위해 interactivity라는 무료 도구를 사용하고 있습니다. 이 비디오 설명에 링크를 넣겠습니다. 이것은 매우 강력한 오디오 처리 도구이지만, 지금은 기본 기능만 사용할 것입니다. 오디오를 녹음하려면 먼저 마이크를 선택해야 합니다. 여기에 "Where"를 클릭한 다음 사용할 마이크를 선택해야 합니다. 나는 이 마이크를 선택할 것입니다. 22 킬로헤르쯔로 설정하십시오. 오디오 세그먼트를 녹음하기 위해 샘플링 비율을 22 킬로헤르쯔로 설정하면 녹음 버튼을 클릭하기만 하면 되고, 녹음이 시작됩니다. 이 경우, 녹음 중입니다. 몇 초 동안 녹음했는지 확인할 수 있으며, 약 10초까지 촬영할 예정입니다. 그런 다음 녹음을 멈추기만 하면 됩니다. 그리고 파일에서 내보내기를 클릭하고 웹 파일로 내보내기를 원합니다. 디렉토리를 "audio"로 저장하고 밑줄 스타일의 세그먼트로 이동하면 약 5개 세그먼트가 필요하다는 것을 알 수 있지만, 나의 경우에는 약 10개 세그먼트로 이동하여 녹음한 것을 들을 수 있습니다. 이제 재생 버튼을 클릭하기만 하면 나의 목소리가 녹음됩니다. 이 경우 나는 10개의 다른 음성 세그먼트를 녹음했습니다. 녹음 중인데, 음질이 좋은지 확인하려고 하기 때문입니다.이제 몇 가지 지침을 따르는 방법을 알아보겠습니다. 오디오 클립을 녹음하기 전에 입력에 따라 복제 클립의 품질이 달라질 수 있으므로 주의해야 합니다. 배경 음악 노이즈나 반향 등을 포함한 클립은 피해야 할 것입니다. 또한 전화 통화 클립이나 "오"와 같은 말이 끼어 있는 클립은 지양해야 합니다. 샘플링 데이터 세트에서 제거된 것과 유사한 말이죠. 이러한 요소를 제거해야 원하는 목소리와 유사한 결과물이 나옵니다. 또한, 오디오북을 읽는 목소리를 듣고 싶다면 클립 내용은 중요하지 않습니다. 모델이 학습할 수 있는 다양한 텍스트를 제공해야 합니다. Notebook을 실행할 준비가 되었습니다. 이 노트북을 복사하여 저장하는 것이 좋습니다. 라이브러리 몇 개를 설치해야 하므로, 먼저 런타임을 GPU로 선택한 후, 연결 버튼을 클릭합니다. 실행할 코드가 적힌 첫 번째 셀을 실행합니다. 이 셀이 실행되면 필요한 라이브러리를 설치합니다. 다음 셀을 실행하면 녹음한 파일을 선택할 수 있습니다. 업로드한 파일은 모두 선택할 수 있습니다. 다음으로, 클론 사운드가 말해야 하는 텍스트를 정의해야 합니다. 프리셋 옵션을 사용하여 빠르게 설정할 수 있습니다. 디폴트 옵션은 빠르지만, 표준은 높은 품질에 더 많은 시간이 소요됩니다. 마지막 셀을 실행하여 오디오를 생성합니다. 결과물을 확인하면, 라이크와 코멘트를 부탁드립니다. 클론 사운드가 나와 완전히 같지는 않지만, 유사함이 있습니다. 이러한 옵션 기능을 사용하여 목표에 빠르게 접근할 수 있습니다. 이 도구들을 실사용하기 전에 책임 있게 확인하여 사용하십시오.이 블록을 다시 실행한 후 최종 셀을 실행해주세요.저는 두 가지 다른 설정으로 실행했습니다.첫 번째는 Fast이고 두 번째는 Super Fast입니다.이것이 출력 음향의 품질에 어떤 영향을 미치는지 확인해보겠습니다. 샘플은 10개 정도만 제공했기 때문에 품질에 문제가 있을 수 있습니다. 또한 제가 녹음한 오디오는 실제로 좋은 품질의 오디오가 아닙니다. 제 방에서 녹음했기 때문입니다.제공한 오디오는 빠른 샘플일 뿐입니다. 이제 그것이 좋은 품질의 샘플인지 확인할 수 있습니다.이 라이브러리의 가장 좋은 기능은 실제로 음성의 톤을 제어할 수 있다는 것입니다.그래서 만약 우울하고 현명한 음성을 원한다면, 더 행복한 음성이나 누군가 열정적인 음성으로 같은 것을 말하는 것도 가능합니다.

AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼 :: ChatGPT 정리

반업주부의 일상 배움사

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 3월 19일 오후 2:06

조회 248

함께 읽은 게시물

이양일

NaverCloud 백엔드 개발자

2023년 05월 20일

주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

F-Lab 에서 주니어 개발자들이(사실 개발자라면 누구나) 보시면 좋을 아티클 모음을 공유해 주었네요! 검색엔진부터 비동기 처리, NoSQL 등 다양한 분야의 아티클들이 공유되어 있으니 관심있으신 분들은 보시면 좋겠습니다. F-Lab 에서 공유해주신 아티클 주제를 나열해보면 다음과 같습니다. 📌 구글이 직접 말하는 검색엔진의 원리 (tali.kr) 📌 검색 엔진은 어떻게 작동하는가 (xo.dev) 📌 네이버의 검색엔진의 특징과 알고리즘 (tistory.com) 📌 [네이버 블로그]네이버 검색의 원리 : 네이버 블... 더 보기

주니어 개발자들이 읽으면 좋은 테크 아티클 모음

F-Lab : 상위 1% 개발자들의 멘토링

•

저장 135 • 조회 3,650

김수빈

딜리셔스 프론트엔드 개발자

5월 8일

ViewTransition API + react-router-dom

실

ViewTransition API 와 browser history 관리, 그리고 React Router

velog.io

저장 17 • 조회 2,055

달레

Apollo GraphQL Software Engineer

3월 30일

React Testing Library 사용법

•

저장 37 • 조회 3,773

달레

Apollo GraphQL Software Engineer

2024년 03월 18일

React Hooks 🪝 Testing Library 사용법

React Hooks Testing Library 사용법

www.daleseo.com

•

저장 21 • 조회 4,000

동크루트

AI 엔지니어, SW 엔지니어

5월 12일

5월 둘째주 - OpenAI 인수부터 마소에 반기까지. 다 하는군요

2025년 5월 9일 (금) - 새 교황님 신상털기 총정리 : 오호츠크 리포트

55check.com

저장 1 • 조회 2,360

골빈해커

Chief Maker

하루 전

감사합니다. 멋진 서비스 잘 만들어보겠습니다.

조회 1,118

비슷한 게시물

박정웅 프리랜서 개발자

Excalidraw에서 한글 손글씨를 보는 흑마술

원강민 Product Engineer

[요약] 메타 AI SAM 세그먼트 애니씽 모델 데모 및 설명 오픈 소스

HoJoong Kim Senior IT guy

GitHub Copilot Enterprise 발표

테디노트 지식 크리에이터👍

<랭체인LangChain 노트> - LangChain 한국어 튜토리얼

Outsider 당근마켓 SRE

어느새 디자이너들의 주류 도구가 된 Figma가 이번에 개발자와의 협업을 개선하기 위해 Dev Mode를 통해 기능을 많이 추가했습니다.

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

3. 깃허브 Github

주간 인기 TOP 10

K리그 프로그래머 커피한잔 개발자

개발자의 장애 공유 문화

석민 커리어 코치

위로

장홍석 스페이스오디티 부대표/CPO

< 뇌를 가장 빠르게 바꾸는 3가지 방법 >

달레 Apollo GraphQL Software Engineer

Dependabot을 통한 안전한 의존성 관리

레드버스백맨 리서처 앤 라이터

⟪스토리를 만드는 사람들⟫

우디디자인랩 대표ㅣ프로덕트 디자이너

브런치에서의 6년, 그리고 100만뷰

골빈해커 Chief Maker

📰 인공지능만으로 운영된 스타트업의 실패 카네기 멜론 대학교의

골빈해커 Chief Maker

ChatGPT의 Deep Researh에 GitHub을 연결 할

동크루트 AI 엔지니어, SW 엔지니어

5월 둘째주 - OpenAI 인수부터 마소에 반기까지. 다 하는군

이양일 NaverCloud 백엔드 개발자

주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼

댓글 0

함께 읽은 게시물

주니어 개발자들이 읽으면 좋은 테크 아티클 모음📚

ViewTransition API + react-router-dom

React Testing Library 사용법

React Hooks 🪝 Testing Library 사용법

5월 둘째주 - OpenAI 인수부터 마소에 반기까지. 다 하는군요

비슷한 게시물

주간 인기 TOP 10

추천 프로필