Community

보고 듣고 말하는 AI 시대의 도래

커피팟(Coffeepot)에서 심플하게 정리한 멀티모달 관련 내용입니다. 상세 내용은 원문 참고하시면 좋을거 같네요. ^^ 구글 바드(Bard)의 업데이트를 시작으로 '멀티 모달(Multi Modality)' LLM(대규모 언어 모델)의 시기가 금방 다가오면서 빅테크 간의 AI '비즈니스화' 경쟁이 벌어질 예정입니다. 1. 멀티모달(Multi Modality) 멀티모달은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이고, 이런 다양한 채널의 '모달리티(Modality, 양식)'를 동시에 받아들여서 학습하고 사고하는 AI 2. 빅테크 업체별 사례 * 구글 바드(Bard)의 업데이트, 스마트폰 픽셀 8의 구글어시스턴트로 스팸전화 대신 응답 및 구글문서 등 연동 * 오픈AI 챗GPT에 이미지 인식 기능과 텍스트-투-스피츠(TTS(Text-To-Speech)) 기능, 이미지 생성 AI인 달리(Dall 3) * 메타 레이벤 스마트 글래스에는 멀티모달 지원하는 메타 AI 기본 탑재 3. Hoking 생각 * 초거대모델 AI개발 위한 초기 인프라 투자비가 최소 1000억 이상이라고 할 정도라서 자본이 많은 빅테크 기업이 계속 시장 기술 선도 가능성 * 이로 인한 기술격차와 AI 양극화 극대화 가능성 -> 결국 상위 기업2~3개가 마치 안드로이드폰과 애플폰이 글로벌 모바일 시장 양분하는 것처럼 가지 않을까? -> 스마트폰과 스마트글래스등의 여러 디바이스에 더 정확하고 양질의 멀티모달이 구현된다면 이제는 모바일에서 새로운 디바이스의 확장으로 이어지지 않을까 싶다. ^^

알림

알림이 없습니다