AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼

멋진 무료 AI 도구를 사용하여 본인의 목소리나 다른 사람의 목소리를 복제하는 방법을 보여드릴 것입니다. 이 도구를 책임 있게 사용하십시오. 당신이 복제하고자 하는 목소리의 샘플만 제공하면, 이 도구가 나머지를 처리합니다. 최고의 교육 데이터를 얻는 방법을 포함하여 단계별 과정을 안내해 드리겠습니다. Turtle Text-To-Speech는 GitHub에서 무료로 사용할 수 있는 오픈소스 도구입니다. 이것은 자신의 컴퓨터에서 실행할 수 있습니다. 저장소에 설치 지침이 제공되지만, 우리는 Google Collaboration을 사용하여 코드를 클라우드에서 실행할 것입니다. 패키지의 저자가 Google Collaboration을 처음에 제거했지만 인터넷의 다른 좋은 사람들을 위해 사용할 수 있도록 만들었으므로 사용할 것입니다. 그러나 최상의 결과를 원하는 경우에는 설치하여 로컬로 실행하는 것을 권장합니다. 새로운 목소리를 추가하고 복제하는 방법은 이제 매우 간단합니다. 먼저 복제하려는 화자의 오디오 클립을 수집해야 합니다. 이 경우 나의 목소리를 사용하고 음성 세그먼트를 녹음할 수 있는 소프트웨어를 보여드리겠습니다. 오디오 클립은 10초 세그먼트여야 하며, 최소한 3개 세그먼트를 요구하지만, 더 많은 데이터 포인트를 포함할수록 품질이 더욱 개선됩니다. 저장해야 할 오디오 파일은 웹 파일로 저장해야 하며, 22 킬로헤르쯔 샘플링 비율이어야 합니다. 대부분의 오디오 시스템은 44 킬로헤르쯔로 녹음하므로, 22 킬로헤르쯔로 수정해야 합니다. 로컬로 실행하는 경우 "speech" 하위 디렉터리를 만들고 여기에 데이터를 넣어야 합니다. 다른 클라우드를 사용하는 경우, 마지막 세 가지 단계는 약간 다를 수 있습니다. 오디오 녹음을 위해 interactivity라는 무료 도구를 사용하고 있습니다. 이 비디오 설명에 링크를 넣겠습니다. 이것은 매우 강력한 오디오 처리 도구이지만, 지금은 기본 기능만 사용할 것입니다. 오디오를 녹음하려면 먼저 마이크를 선택해야 합니다. 여기에 "Where"를 클릭한 다음 사용할 마이크를 선택해야 합니다. 나는 이 마이크를 선택할 것입니다. 22 킬로헤르쯔로 설정하십시오. 오디오 세그먼트를 녹음하기 위해 샘플링 비율을 22 킬로헤르쯔로 설정하면 녹음 버튼을 클릭하기만 하면 되고, 녹음이 시작됩니다. 이 경우, 녹음 중입니다. 몇 초 동안 녹음했는지 확인할 수 있으며, 약 10초까지 촬영할 예정입니다. 그런 다음 녹음을 멈추기만 하면 됩니다. 그리고 파일에서 내보내기를 클릭하고 웹 파일로 내보내기를 원합니다. 디렉토리를 "audio"로 저장하고 밑줄 스타일의 세그먼트로 이동하면 약 5개 세그먼트가 필요하다는 것을 알 수 있지만, 나의 경우에는 약 10개 세그먼트로 이동하여 녹음한 것을 들을 수 있습니다. 이제 재생 버튼을 클릭하기만 하면 나의 목소리가 녹음됩니다. 이 경우 나는 10개의 다른 음성 세그먼트를 녹음했습니다. 녹음 중인데, 음질이 좋은지 확인하려고 하기 때문입니다.이제 몇 가지 지침을 따르는 방법을 알아보겠습니다. 오디오 클립을 녹음하기 전에 입력에 따라 복제 클립의 품질이 달라질 수 있으므로 주의해야 합니다. 배경 음악 노이즈나 반향 등을 포함한 클립은 피해야 할 것입니다. 또한 전화 통화 클립이나 "오"와 같은 말이 끼어 있는 클립은 지양해야 합니다. 샘플링 데이터 세트에서 제거된 것과 유사한 말이죠. 이러한 요소를 제거해야 원하는 목소리와 유사한 결과물이 나옵니다. 또한, 오디오북을 읽는 목소리를 듣고 싶다면 클립 내용은 중요하지 않습니다. 모델이 학습할 수 있는 다양한 텍스트를 제공해야 합니다. Notebook을 실행할 준비가 되었습니다. 이 노트북을 복사하여 저장하는 것이 좋습니다. 라이브러리 몇 개를 설치해야 하므로, 먼저 런타임을 GPU로 선택한 후, 연결 버튼을 클릭합니다. 실행할 코드가 적힌 첫 번째 셀을 실행합니다. 이 셀이 실행되면 필요한 라이브러리를 설치합니다. 다음 셀을 실행하면 녹음한 파일을 선택할 수 있습니다. 업로드한 파일은 모두 선택할 수 있습니다. 다음으로, 클론 사운드가 말해야 하는 텍스트를 정의해야 합니다. 프리셋 옵션을 사용하여 빠르게 설정할 수 있습니다. 디폴트 옵션은 빠르지만, 표준은 높은 품질에 더 많은 시간이 소요됩니다. 마지막 셀을 실행하여 오디오를 생성합니다. 결과물을 확인하면, 라이크와 코멘트를 부탁드립니다. 클론 사운드가 나와 완전히 같지는 않지만, 유사함이 있습니다. 이러한 옵션 기능을 사용하여 목표에 빠르게 접근할 수 있습니다. 이 도구들을 실사용하기 전에 책임 있게 확인하여 사용하십시오.이 블록을 다시 실행한 후 최종 셀을 실행해주세요.저는 두 가지 다른 설정으로 실행했습니다.첫 번째는 Fast이고 두 번째는 Super Fast입니다.이것이 출력 음향의 품질에 어떤 영향을 미치는지 확인해보겠습니다. 샘플은 10개 정도만 제공했기 때문에 품질에 문제가 있을 수 있습니다. 또한 제가 녹음한 오디오는 실제로 좋은 품질의 오디오가 아닙니다. 제 방에서 녹음했기 때문입니다.제공한 오디오는 빠른 샘플일 뿐입니다. 이제 그것이 좋은 품질의 샘플인지 확인할 수 있습니다.이 라이브러리의 가장 좋은 기능은 실제로 음성의 톤을 제어할 수 있다는 것입니다.그래서 만약 우울하고 현명한 음성을 원한다면, 더 행복한 음성이나 누군가 열정적인 음성으로 같은 것을 말하는 것도 가능합니다.

AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼 :: ChatGPT 정리

반업주부의 일상 배움사

AI로 모든 음성을 복제하는 방법 | Tortoise-TTS 튜토리얼 :: ChatGPT 정리

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 19일 오후 2:06

댓글 0