[서평] '멀티모달 생성AI인사이드'

'멀티모달 생성AI인사이드' 책을 읽고 난 소감을 결론부터 얘기하자면, 개인적으로 작년부터 올해까지 LLM과 생성형AI 관련 책들도 생성형AI 전체를 조망하는데 가장 좋은 책으로 꼽을수 있을 거 같다.


그 이유중의 하나는 기존의 다른책들 역시 이런 내용들을 포함하고는 있으나 어느 한쪽에 치우치는 경향들이 있었다. 그러나, 이 책에서는 관련 내용을 쉽게 설명하고, 도표등을 통해서 핵심요약까지 해주어 내용을 이해하기 쉬울 뿐만 아니라 정리까지 깔끔하게 마무리 해준다.

 

 특히, 이 책에서는 AI의 역사부터 주요 멀티모달AI기술들의 발전사, 생성AI의 다양한 활용 방안 및 비지니스 모델, AI주도권을 가지고 치열한 경쟁을 하는 글로벌 빅테크 기업들의 다양한 AI서비스들과 향후 경쟁 분야 뿐만 아니라 윤리적AI와 저작권, AI신뢰성등을 포함하는 AI관련 이슈, 각국의 AI 관련 전략과 규제 정책들을 총망라하고 있다. 그래서, 오히려, 메인 제목보다 부제인 '멀티모달 생성AI의 개념부터 활용 전략과 미래 전망까지'가 더 적합해보인다. 

 

전체를 조망하면서도 세부적인 부분의 설명에 있어서도 꼼꼼하다.

예를 들어, 음성변환 부터 언어처리를 가는 과정에 있어, 음성변환도 다시 음석인식를 통한 언어 이해와 음성합성을 통한 언어 생성이 되고, 이 2가지의 음성 변환이 대화관리로 가는 언어처리 과정을 거쳐 대화DB 또는 외부 DB로 가게 되는 이러한 상세 설명은 그 세부내용들을 제대로 이해할 수 있도록 쉽게 설명해주고 있다.

 

당연히 이 책에서는 AI의 활성화의 근간이 되는 머신러닝과 딥러닝도 다루고 있다. 다만, 이번 책을 통해서 머신러닝과 딥러닝의 차이점을 좀 더 명확히 이해하는 계기가 되었다. 사실 인공지능을 제대로 배우지 않았거나 데이터 사이언티스트등의 업무를 하지 않은 사람들 입장에서는 머신러닝과 딥러닝이 비슷하게 느껴지는게 사실이다.

 

또한, 제프리힐튼같은 교수님의 역전파에 대한 해결책 제시등의 지대한 공헌을 비롯해서, CNN신경망등의 알고리즘과 딥러닝 모델 발달과 인터넷과 스마트폰으로 급격하게 늘어난 무수한 데이터들, 그리고, 이에 대한 연산을 가능케 하는 NVIDIA의 A100 또는 H100과 같은 GPU 기술의 발전과 더불어 메타의 파이토치, 구글의 텐서플로우, 쉽게 프로그래밍 접근을 가능케했던 파이썬, 메타의 LLAMA와 같은 오픈기반의 모델들, 그리고, 허깅페이스등의 발전이 동시에 가능했기에 멀티모달(Multi-Modal) AI가 나올 수 있었다는데 아주 깊은 공감을 하게 되었다.


또한, 요즘의 생성형AI가 기존의 AI와 어떻게 다른지 주어진 학습데이터를 활용한다는 측면에서는 유사할 수 있으나 데이터의 분류/예측보다 생성/변형이, 지도학습보다 비지도 학습이 이루어진다는 측면에서 그 구분점을 확실히 다르다.

 

그리고, 주요 분야의 멀티모달 생성AI기술을 상세히 다루고, 이에 대한 활용분야까지 명시한 점은 이 책이 원래 지향하는 멀티모달AI 인사이드의 코어로 봐도 무방할 거 같다.

  • 2013년 비지도학습방식의 VAE(변이자동인코더)

  • 2017년 살리맨스에 의한 확산모델

  • 구글브레인에서 2019년에 만든 비전트랜스포머

  • 오픈AI의 멀티모달AI모델로 ViT기반 사전학습모델로 2021년 등장한 CLIP

  • 2022년 스테이블AI가 공개한 텍스트, 이미지, 음성을 모두 지원하는 스테이블디퓨전

  • 2022년 OpenAI가 공개한 Dall-E2

  • 2023년 메타(구 페이스북)가 오픈한 자기지도학습방식의 LLAMA

  • 2023년 3월 ChatGPT4

  • 트랜스포머와 PaLM2방식을 결합하여 2023년1월 오픈한 구글의 Bard

  • 2023년 ViT기반 이미지 모델인 메타의 SAM과 멀티모달 생성AI모델인 메타의 ImageBind


개인적인 용도이자 업무용도로 현재 ChatGPT4.0을 쓰고 있는데, 이러한 멀티모달AI가 향후 어떤 비지니스나 산업에 어떻게 영향을 미칠것인지 늘 궁금한 것이 사실이다. 가장 인상깊었던 것은 이러한 멀티모달AI가 음악, 영상 분야 뿐만 아니라 금융, 의료, 제조분야에 충분히 활용될 수 있는 다양한 기술이 될 수 있음을 알게되어 향후 기대가 된다. 개인적으로는 자율주행 기술과 접목을 통해서 우리 일상에 보다 빨린 편이성과 효율성을 가져다 주길 기대한다.

 

아직 생성형AI의 갈 길이 멀고, 여전히 무주공산이다. 다만, 인간들의 자리를 위협하기보다는 새로운 일자리 창출에 더 큰 도움과 기여가 되고, 인간세상에 더 편리함을 제공해주는 그로 인하여 정보와 소득의 불평등과 격차가 해소되는 인류를 위한 기술로 활용되기를 간절히 기대해본다.

 

이번 기회를 통해서 이 책을 읽을수 있게 된 것은 개인적으로 큰 기회이자 큰 도움이 되었던 거 같다. 아무쪼록 생성형AI에 대한 현재와 앞으로를 고민하시는 분들께 추천해본다.

 

출처: https://www.hanbit.co.kr/store/books/look.php?p_code=B9155744064

멀티모달 생성 AI 인사이드

www.hanbit.co.kr

멀티모달 생성 AI 인사이드

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 3월 24일 오전 7:17

댓글 0

    함께 읽은 게시물

    노후 준비 상황 점검

    ... 더 보기

     • 

    저장 13 • 조회 953


    “다른 팀이 무슨 일 하는지 왜 알아야 돼?” 필자는 이 말을 들으면 속으로 안도한다. 만약 이런 표현을 우연히 듣게 됐다면 가슴을 쓸어내리며 감사히 여겨도 좋다. 조직 내 사일로 현상을 알아차리게 됐기 때문이다.

    ... 더 보기

    "다른 팀이 무슨 일 하는지 왜 알아야 돼?"…조직 내 사일로 없애기

    네이버 블로그 | 사람의 행복과 기업의 성장을 돕는 HR Insight

    "다른 팀이 무슨 일 하는지 왜 알아야 돼?"…조직 내 사일로 없애기

    Manus AI 에게 http://snippod.com 에 대한 SEO 개선안을 만들어 보게 했습니다. 저는 이 결과를 보았을때 엄청 만족스러웠어요.. 이정도면 SEO 컨설턴트에게 맡기면 1주일 이상 걸려서 나올까 말까 한 퀄리티 아닌가요??

    ... 더 보기

    스타트업 스닙팟 SEO 개선 실행 계획 - Manus

    manus.im

    스타트업 스닙팟 SEO 개선 실행 계획 - Manus

    “두 명의 학생이 있습니다. 한 명은 학기 초부터 뛰어난 퍼포먼스를 보입니다. 중간고사에서 100점 만점에 98점을 받더니 기말고사에서 80점을 기록합니다. 다른 학생은 중간고사 70점, 기말고사 88점을 받습니다. 어느 학생이 뛰어난 걸까요?”

    ... 더 보기

    [김형철의 철학경영]배우고 노력하고 남이 싫어하는 일을 하라

    서울경제

    [김형철의 철학경영]배우고 노력하고 남이 싫어하는 일을 하라

    “청(靑)은 남(藍)에서 나왔으나 남(藍)보다 더 푸르르고”. 후배 양성을 이야기 할 때 마다 단골로 나오는 글귀다. 청출어람(靑出於藍). 가르침을 준 스승이나 선배를 뛰어 넘어 더 나은 역량과 재능을 가진 후배를 가르킬 때 우리는 즐겨 이 표현을 사용한다.

    ... 더 보기

    [배진실 칼럼] 인재를 인재답게 양성하는 꿀 팁 4가지

    오늘경제

    [배진실 칼럼] 인재를 인재답게 양성하는 꿀 팁 4가지

    커리어를 쌓아야 할 때 알아야 하는 잔인한 사실들

    1

    ... 더 보기

     • 

    저장 27 • 조회 1,074