영상에서 특정 목소리만 추출

Question

안녕하세요 국비지원학원에서 개발분야 수강중어 있는 학생입니다. 저희가 지금 프로젝트 진행중인데 데이터 전처리 과정 중 유튜브 영상에서 특정 목소리만을 추출하고자합니다. Pytube 라이브러리에서 wav파일추출해서 모 회사의 보이스필터api사용했는데 계속 에러가 뜹니다. 실행조건인 샘플링레이트 16000, 모노타입으로 변환했는데도 안되가지고 다른 방법이 없을까 하고 조언을 구하고자 올립니다

손정현 · Answer

안녕하세요!

비디오, 오디오 트랙에 대한 정보가 없다고 가정하고 답변 드리겠습니다. 별도의 오디오 트랙 정보 없이 비디오에서 특정 목소리만 추출하는 것 자체가 인공지능이 필요해 보이는 작업 같네요. 인공지능의 성능에 따라서 깔끔함의 정도는 차이가 있을 것 같아요.

시중에 이미 여러가지 제품들이 있습니다. 그중 제가 추천 드릴만한 것은 아래 2가지고 둘 다 무료지만 제한적이긴 합니다:
- https://vocalremover.org/
- https://www.acapella-extractor.com/en/

보이스만 추출하는 API가 필요하신거라면 무료로 제공하는 API는 찾기 어려워 보입니다. 다만, 인공지능 모델 자체는 오픈된게 많습니다. 직접 깃허브 레포를 클론 받아서 모델에다가 추출하고 싶은 파일들을 넣어보고 결과물을 확인할 수 있는데요.
(아니면 레포에서 제공하는 데모 링크를 통해 확인 가능합니다)

페이스북에서 연구한 Demucs 나 Deezer의 spleeter를 추천드립니다.
- https://github.com/facebookresearch/demucs
- https://github.com/deezer/spleeter