사람처럼 보고 듣고 말을 이해하는 '인공지능 어시스턴트' 개발 플랫폼... 메타 AI, 'AV-휴버트' 오픈소스로 공개
인공지능신문
< 사람처럼 보고 듣고 말을 이해하는 '인공지능 어시스턴트' 개발 플랫폼... 메타 AI, 'AV-휴버트' 오픈소스로 공개 > 스마트 스피커부터 난청이나 언어 장애가 있는 사람들을 위한 도구 개발에 이르기까지 보다 광범위한 분야에서 음성 인식 및 이해 작업 등에 인공지능(AI)을 사용하고 있다. 그러나 이러한 음성 인식과 이해 시스템은 정교한 소음 억제 및 제어 기술 채택에도 불구하고 우리가 가장 필요로 하는 일상적인 상황에서 잘 작동하지 않는 경우가 많다. 여러 사람이 동시에 말하고 있거나 배경 소음이 많은 경우, 인식에 어려움을 겪는다. 당연하다. 이러한 경우 사람들이 AI보다 말을 더 잘 이해할 수 있는 한 가지 이유는 귀뿐만 아니라 눈도 사용하기 때문이다. 우리는 누군가의 입이 움직이는 것을 보고 듣고 있는 목소리가 누구에게서 나오는 것임을 직관적으로 알 수 있다. 이에 메타(Meta. 구 페이스북) AI 연구팀은 이러한 다재다능하고 강력한 음성 인식 도구를 구축하는 데 도움을 주기 위해, 우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(AV-Visual Hidden Unit BERT. 이하, AV-HuBERT)를 발표하고 오픈 소스로 공개했다. 출처 : 인공지능신문(http://www.aitimes.kr)
2022년 1월 17일 오후 12:15