☕️ 보고 듣고 말하는 AI 시대의 도래
stibee.com
커피팟(Coffeepot)에서 심플하게 정리한 멀티모달 관련 내용입니다. 상세 내용은 원문 참고하시면 좋을거 같네요. ^^
구글 바드(Bard)의 업데이트를 시작으로 '멀티 모달(Multi Modality)' LLM(대규모 언어 모델)의 시기가 금방 다가오면서 빅테크 간의 AI '비즈니스화' 경쟁이 벌어질 예정입니다.
멀티모달(Multi Modality)
멀티모달은 텍스트, 이미지, 영상, 음성 등 시청각 요소로 이루어진 여러 방법으로 정보를 주고받는 것을 말하는 개념이고, 이런 다양한 채널의 '모달리티(Modality, 양식)'를 동시에 받아들여서 학습하고 사고하는 AI
빅테크 업체별 사례
구글 바드(Bard)의 업데이트, 스마트폰 픽셀 8의 구글어시스턴트로 스팸전화 대신 응답 및 구글문서 등 연동
오픈AI 챗GPT에 이미지 인식 기능과 텍스트-투-스피츠(TTS(Text-To-Speech)) 기능, 이미지 생성 AI인 달리(Dall 3)
메타 레이벤 스마트 글래스에는 멀티모달 지원하는 메타 AI 기본 탑재
Hoking 생각
초거대모델 AI개발 위한 초기 인프라 투자비가 최소 1000억 이상이라고 할 정도라서 자본이 많은 빅테크 기업이 계속 시장 기술 선도 가능성
이로 인한 기술격차와 AI 양극화 극대화 가능성
-> 결국 상위 기업2~3개가 마치 안드로이드폰과 애플폰이 글로벌 모바일 시장 양분하는 것처럼 가지 않을까?
-> 스마트폰과 스마트글래스등의 여러 디바이스에 더 정확하고 양질의 멀티모달이 구현된다면 이제는 모바일에서 새로운 디바이스의 확장으로 이어지지 않을까 싶다. ^^
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 10월 10일 오전 5:33
최근에 친구가 추천해준 데일 카네기의 인간관계론을 읽던 중 고액 연봉을 받는 엔지니어들의 특징에 대한 흥미로운 내용이 있었다.
... 더 보기쿠
... 더 보기어제 출시된 따끈따끈한 ChatGPT Codex를 실제 프로젝트 레포에 써 보았습니다.
테스트가 있으면 스스로 테스트도 실행하고, 만든거 스스로 실행해보면서 버그도 수정하고 하는게 기특하긴 합니다.