< 사람처럼 보고 듣고 말을 이해하는 '인공지능 어시스턴트' 개발 플랫폼... 메타 AI, 'AV-휴버트' 오픈소스로 공개 > 스마트 스피커부터 난청이나 언어 장애가 있는 사람들을 위한 도구 개발에 이르기까지 보다 광범위한 분야에서 음성 인식 및 이해 작업 등에 인공지능(AI)을 사용하고 있다. 그러나 이러한 음성 인식과 이해 시스템은 정교한 소음 억제 및 제어 기술 채택에도 불구하고 우리가 가장 필요로 하는 일상적인 상황에서 잘 작동하지 않는 경우가 많다. 여러 사람이 동시에 말하고 있거나 배경 소음이 많은 경우, 인식에 어려움을 겪는다. 당연하다. 이러한 경우 사람들이 AI보다 말을 더 잘 이해할 수 있는 한 가지 이유는 귀뿐만 아니라 눈도 사용하기 때문이다. 우리는 누군가의 입이 움직이는 것을 보고 듣고 있는 목소리가 누구에게서 나오는 것임을 직관적으로 알 수 있다. 이에 메타(Meta. 구 페이스북) AI 연구팀은 이러한 다재다능하고 강력한 음성 인식 도구를 구축하는 데 도움을 주기 위해, 우리처럼 대화에서 보는 것과 듣는 것 사이의 미묘한 상관 관계를 인식하고 음성을 이해하는 최첨단 자기 지도(self-supervised) 프레임워크인 AV-휴버트(AV-Visual Hidden Unit BERT. 이하, AV-HuBERT)를 발표하고 오픈 소스로 공개했다. 출처 : 인공지능신문(http://www.aitimes.kr)

사람처럼 보고 듣고 말을 이해하는 '인공지능 어시스턴트' 개발 플랫폼... 메타 AI, 'AV-휴버트' 오픈소스로 공개

인공지능신문

사람처럼 보고 듣고 말을 이해하는 '인공지능 어시스턴트' 개발 플랫폼... 메타 AI, 'AV-휴버트' 오픈소스로 공개

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2022년 1월 17일 오후 12:15

조회 300

댓글 0

    함께 읽은 게시물

    불확실성이 지속되고 있다. 이제는 너무도 익숙한 상황이다. 이러한 상황을 표현한 ‘영구적 위기(Permacrisis)’라는 단어가 있다. 2022년 영국 콜린스 사전에 등재된 단어다.

    ... 더 보기

    회사가 어려울수록 직원에게 투자해야 하는 이유[김광진의 경영 전략]

    magazine.hankyung.com

     회사가 어려울수록 직원에게 투자해야 하는 이유[김광진의 경영 전략]

    인턴 친구

    ... 더 보기

    Longest Common Subsequence 자바스크립트 풀이

    ... 더 보기

    Longest Common Subsequence | 알고달레

    알고달레

    Longest Common Subsequence | 알고달레

    하나부터 열까지 리더가 상세히 설명해 주기를 바라는 구성원이 있습니다. 반대로 큰 얼개만 듣고 나머지는 자율적으로 하고 싶어 하는 경우도 있죠. 회식에 참여하는 것을 너무나 힘겨워 하는 구성원이 있는 반면, 동료들과 함께 시간을 보내며 가까워지는 것을 원하는 구성원도 있습니다.

    ... 더 보기

    다양한 구성원을 하나로 모으고 싶다면 - 리더가 가져야 할 모순

    네이버 블로그 | HSG 휴먼솔루션그룹

    다양한 구성원을 하나로 모으고 싶다면 - 리더가 가져야 할 모순

     • 

    저장 7 • 조회 897


    🧊 급격하게 얼어붙고 있는 해외 취업 시장 🥶

    최근 한국에 아는 개발자 분께서 미국에서 근무할 수 있는 포지션의 최종 면접을 앞두고 있었는데 갑자기 채용이 무기한 연기되었다는 황당한 소식을 듣게 되셨습니다. 다른 개발자 분께서는 심지어 최종 합격을 하고 리로케이션 패키지까지 받았는데, 느닷없이 오퍼가 취

    ... 더 보기

    《성공과 성장이 다르고, 확장과 성장도 달랐다》

    ... 더 보기