[아바타를 만드는 AI 기술 : Talking Face Generation 기술의 종류 5가지를 알아보자]
AI아나운서, AI윤석열 등 AI를 이용하여 아바타를 만드는 기술에 대한 관심도가 최근에 부쩍 높아진 것을 느끼고 있는데요.
그래서 현재 연구개발분야이기도 한 AI 휴먼 생성 기술의 종류 중 하나인 Talking Face Generation가 무엇인지 그리고 기술의 종류를 어떻게 나눌 수 있을지에 대해 글을 한번써보려고 합니다.
Talking Face Generation이란?
영상과 음성 등의 멀티모달 데이터를 입력으로 말하는 얼굴 동영상을 생성하는 기술로,
전처리로 여러가지 인식 기술도 필요하기 때문에 컴퓨터비전 분야와 음성/자연어 분야 등에 대한 폭넓은 이해가 필요한 기술입니다.
국내에서는 딥브레인, 마인즈랩 두곳이 상용화 서비스를 시작했고 그 품질 또한 상당히 훌륭합니다.
최근에 스마트테크코리아라는 전시회에 가서 보니 CNAI, 클레온, CJ올리브네트웍스도 비슷한 서비스를 준비하고 있나보네요.
Talking Face Generation 기술의 분류
저는 주관적으로 Talking Face Generation 기술을 다음 5가지로 분류해보았습니다.
- 이미지에 마스킹을 이용하는 방법
- 얼굴의 랜드마크를 이용한 방법
- Text 데이터를 이용하는 방법
- 감정 정보를 이용하는 방법
- 하나의 이미지 입력 기반의 방법
모든 기법들이 이 다섯가지로 깔끔하게 나뉘지 않을 수도 있지만 대체로는 이 다섯가지 중 하나에는 들어갈 것 같습니다.
상세 내용은 아래 블로그 링크를 첨부합니다.