김성혁

테크 리드

[231005] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다. 오늘의 AI 뉴스 시작해 볼게요! 1️⃣ [Show-1: 텍스트-비디오 생성을 위한 효율적인 하이브리드 확산 모델] 대규모 텍스트-비디오 확산 모델(VDM) 분야에서의 발전에도 불구하고, 기존 모델들은 계산 비용이 높은 픽셀 기반 VDM이나 텍스트와 비디오의 정확한 정렬이 어려운 잠재 기반 VDM에 의존하는 경향이 있었습니다. 이 연구에서는 텍스트-비디오 생성을 위한 새로운 하이브리드 모델인 Show-1을 제안하며, 이 모델은 픽셀 기반 VDM으로 저해상도 비디오를 생성한 뒤, 잠재 기반 VDM을 사용해 이를 고해상도로 업샘플링합니다. 결과적으로 Show-1은 텍스트와 비디오의 정확한 정렬이 가능하면서도 픽셀 기반 VDM보다 훨씬 효율적입니다. https://huggingface.co/papers/2309.15818 2️⃣ [Emu: 고품질 이미지 세트를 활용한 텍스트-이미지 모델의 품질 튜닝] 웹 스케일의 이미지-텍스트 쌍을 활용해 텍스트-이미지 모델을 학습하면 다양한 시각적 개념을 생성할 수 있지만, 높은 품질의 이미지 생성에는 한계가 있습니다. 이 연구에서는 이러한 문제를 해결하기 위해 품질 튜닝 방법을 제안합니다. 이 방법은 작은 규모의 고품질 이미지 세트를 사용하여 미세 조정을 진행하여 생성 품질을 크게 향상시키는 것을 중점으로 합니다. 11억 개의 이미지-텍스트 쌍으로 학습한 모델을 수천 개의 고품질 이미지로 미세 조정한 결과, Emu라는 모델이 82.9%의 승률로 뛰어난 성능을 보였습니다. Emu는 최신 SDXLv1.0과 비교해도 높은 선호도를 보였으며, 제안된 품질 튜닝 방식은 다양한 아키텍처에도 효과적으로 적용될 수 있음을 입증하였습니다. https://huggingface.co/papers/2309.15807 3️⃣ [PIXART-alpha: 고품질 저비용 텍스트-이미지 생성을 위한 효율적인 확산 모델] 최첨단 텍스트-이미지(T2I) 모델의 큰 훈련 비용은 CO2 배출을 증가시키고 혁신을 방해하고 있습니다. 이 연구에서는 효율적인 훈련 비용으로 최첨단 이미지 생성 기술과 경쟁하는 Transformer 기반 T2I 확산 모델인 PIXART-alpha를 제시합니다. 이 모델은 훈련 전략의 분해, 효율적인 T2I 트랜스포머 디자인, 정보성이 높은 데이터 활용의 세 가지 핵심 설계를 기반으로 합니다. 결과적으로 PIXART-alpha는 기존 모델들에 비해 매우 빠른 훈련 속도를 보여주며, 훈련 비용과 CO2 배출량을 크게 줄였습니다. 이 모델은 이미지 품질, 예술성, 의미 제어에서 우수한 성능을 보였으며, 고품질 저비용 생성 모델의 구축에 새로운 기회를 제시합니다. https://huggingface.co/papers/2310.00426 — 🥇 K-디지털 트레이닝 훈련기관 최초! '대통령 표창' 수상한 모두의연구소의 AI학교 아이펠 입학하기 → https://bit.ly/3YDkLV4

AI학교 아이펠 - 부트캠프와 다른 AI학교

AI학교 아이펠

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 10월 4일 오후 11:48

조회 671

함께 읽은 게시물

이상우

Staff Back-end Engineer

5일 전

용인시 도서관 휴먼북 인터뷰

용

용인시 도서관 휴먼북 인터뷰

I'm Prostars

저장 1 • 조회 1,350

하조은

당근 Product Engineer

2일 전

발이 닿지 않는 바다에서

우

발이 닿지 않는 바다에서

hajoeun.com

•

저장 4 • 조회 1,644

달레

Apollo GraphQL Software Engineer

3일 전

스토리북 9 출시 소식

드

Storybook 9

Storybook Blog

저장 4 • 조회 1,615

달레

Apollo GraphQL Software Engineer

5일 전

Longest Common Subsequence 자바스크립트 풀이

코

Longest Common Subsequence | 알고달레

알고달레

댓글 2 • 저장 9 • 조회 1,725

석민

커리어 코치

2일 전

전략적 입사 지원

전

저장 11 • 조회 569

골빈해커

Chief Maker

3일 전

📝 MP4 파일을 벡터 검색의 텍스트 DB로 사용하는 프로젝트

간

GitHub - Olow304/memvid: Video-based AI memory library. Store millions of text chunks in MP4 files with lightning-fast semantic search. No database needed.

GitHub

저장 2 • 조회 1,259

비슷한 게시물

김성혁 테크 리드

[231010] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

김성혁 테크 리드

[231006] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

골빈해커 Chief Maker

📝 OpenAI, Sora 발표의 핵심

𝙍𝙞𝙘𝙝𝙖𝙧𝙙 처음 배워도 재미있고 가치있는 DATA/AI 교육을 만듭니다.

DATA가 있어야 AI가 존재합니다.

사호진 프로덕트 매니저

카카오의 멀티모달 LLM, '허니비' 공개

Kimjeongeun 모두의연구소 아이펠캠퍼스 퍼실리테이터

[0722]모두에게 전하는 모두연 AI뉴스!

주간 인기 TOP 10

골빈해커 Chief Maker

[광고] 다음 직무 채용 예정입니다. - 프러덕트/사업 기획 1

김의중 프론트엔드 개발자

Next.js 프로젝트를 AWS EKS에 배포하며 배운 것들

달레 Apollo GraphQL Software Engineer

🌎 해외에서 일하면 뭐가 좋을까요❓

K리그 프로그래머 커피한잔 개발자

앱 개발 개척시대

psmon 웹노리라이터

서버엔지니어의 시대적 고민

장홍석 스페이스오디티 부대표/CPO

< 서비스를 중독성 있게 만드는 결정적 원리 >

레드버스백맨 리서처 앤 라이터

⟪UX 디자이너가 사라지고 있다⟫

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

하나부터 열까지 리더가 상세히 설명해 주기를 바라는 구성원이 있습

평비 LGCNS 백엔드 개발자

개발자 교양 팟캐스트

조찬우 Coupang Sr. iOS Engineer

iOS 19가 아니라 이제 iOS 26?

[231005] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

댓글 0

함께 읽은 게시물

용인시 도서관 휴먼북 인터뷰

발이 닿지 않는 바다에서

스토리북 9 출시 소식

Longest Common Subsequence 자바스크립트 풀이

전략적 입사 지원

📝 MP4 파일을 벡터 검색의 텍스트 DB로 사용하는 프로젝트

비슷한 게시물

주간 인기 TOP 10

추천 프로필