GitHub - rongyaofang/PUMA: Empowering Unified MLLM with Multi-granular Visual Generation
GitHub
디테일이 살아있는 멀티모달 생성모델, PUMA
최근 멀티모달 Foundation model 의 발전으로 AI의 Vision-Language Understanding 분야에 큰 발전이 있었습니다. 이에 이어 Visual Contents Generation을 위한 멀티모달 모델의 활용 또한 연구가 이루어지고 있습니다. 하지만 기존 연구들은 텍스트-이미지 생성에 필요한 다양성이나 이미지 조작에 필요한 정밀한 제어 가능성을 갖추는 데에 성공적이지 못했습니다. MMLab에 참여하고 있는 홍콩 대학교, 홍콩 중문대학 등의 중화권 공동 연구진은 이에 다양한 세부성의 시각적 특징들을 MLLM의 입력과 출력으로 통합하여, 통합된 MLLM 프레임워크 내에서 다양한 이미지 생성 작업의 서로 다른 세부 요구사항을 해결하는 방법, PUMA (PUMA: EMPOWERING UNIFIED MLLM WITH MULTI-GRANULAR VISUAL GENERATION) 를 제안합니다. 다양한 크기로 추출된 이미지의 feature와 text token을 통합한 후, 이를 다양한 크기의 디퓨전 디코더로 생성하여 이미지를 통합합니다. PUMA는 기존의 SOTA인 SEED-LLaMa, SEED-X보다 높은 PSNR, 낮은 LPIPS를 기록하며 SOTA를 달성하였으며, 시각적으로 디테일이 뛰어난 이미지를 생성해내었습니다. PUMA는 Image generation 뿐만 아닌 Image understanding이나 image editing, inpainting에도 활용할 수 있습니다.
https://github.com/rongyaofang/PUMA
카카오 if(kakaoAI)2024 컨퍼런스 개최
카카오가 10월 22일부터 24일까지 그룹 전체의 AI비전과 방향성을 공유하는 컨퍼런스, If 2024를 개최하였습니다. 카카오는 키노트를 통해 새로운 AI 통합 브랜드 '카나나(Kanana)' , 연구 개발중인 LLM과 VLM 등 주요 생성형 모델 및 AI 기반 안티 어뷰징 시스템 '페이크 시스템' 을 소개하였고, AI를 활용한 추천시스템 사례를 공유했습니다. 이 날 정신아 대표는 카카오의 신규 AI 메이트 서비스 '카나나'는 '가장 나다운 AI'를 의미하고, 개인 메이트 '나나(nana)'와 그룹 메이트 '카나(kana)'로 구성되며, 특히 기존 AI와 달리 그룹대화의 맥락을 이해하고 적절한 답변을 제시하는 것이 특징이라고 밝혔습니다. 이어서 정규돈 CTO는 연구 개발중인 LLM 플래그십인 카나나 플래그/카나나 에센스/ 카나나 나노를 소개하며, 이 중 에센스와 나노 모델의 성능은 SOTA에 근접하고 있고 카카오 서비스에 적용할 계획임을 밝혔습니다. 이날 키노트에서는 카카오모빌리티의 자율주행 택시, 카카오페이의 개인화 금융상품 등의 그룹 비전과 AI 리스크 관리 체계인 Kakao ASI를 함께 발표했습니다.
https://if.kakao.com/
[아이펠 11기] AI 입문부터 활용까지! AI개발자 과정! AI학교 아이펠 11기 모집 중: https://bit.ly/aiffel_online_11th
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 23일 오전 6:05