IIIT 연구진이 ACM Multimedia 2020에 발표한 Wav2Lip 의 오픈 소스 데모 페이지.
음성에 맞춰서 영상의 입술 모양을 바꾸는 이른바 '립싱크 딥페이크' 기술로, 2019년에 나온 LipGAN을 개선한 기술. GAN의 판별자(Discriminator) 모듈을 둘로 나눠서 하나는 전체적인 영상의 자연스러움을, 나머지 하나는 립싱크의 자연스러움을 판단해서 두 개의 손실 함수를 산출하게 했다네요.
작년 출시된 Cyberpunk 2077에 사용된 JALI Research의 jRig이 음소 정보를 인식해서 3D 모델링 정보로 변환하는 3D 기반 기술이라면, Wav2Lip은 음소 정보를 가지고 2D 이미지를 변조하는 2D 기반 기술로 볼 수 있습니다.
이 기술이 고도화되면 영화에 다국어 더빙을 하면서 입술의 어색함을 없애는 데 응용할 수도 있겠네요. Neural TTS와 조합하면 하나의 영상 소스에 여러 오디오를 효율적으로 만들어낼 수도 있을 것이고, STT와 결합하면 이미지 소스와 음성으로 발화 영상을 효율적으로 만들 수 있겠네요. LipGAN과 비교하면 1년만에 상당한 수준으로 발전한 것이 사실이니 현실화가 아주 멀어 보이지는 않습니다.