Goku
saiyan-world.github.io
Flux 저리 비켜! 업계 Sota 모델 Goku 등장
Bytedance가 홍콩대학교와의 공동연구를 통해 Goku라는 최첨단 이미지 및 비디오 생성 모델 패밀리를 소개하였습니다. Goku는 Rectified Flow Transformer 구조를 차용한 모델로, 이미지와 비디오 동시 생성에 Rectified flow를 공식화하여 적용시키는 접근을 시도하여, 공유한 잠재 공간을 형성하여 활용하였습니다. 또한 연구진은 미적 점수를 기반으로 한 비디오 및 이미지 필터링, OCR 기반 콘텐츠 분석, 주관적 평가를 포함한 여러 고급 기술을 통합하여 탁월한 시각적 및 맥락적 품질을 보장하는 데이터 수집 및 정제 파이프라인를 새로 제시하였습니다. Goku는 대규모 학습을 위한 효율적이고 견고하게 구축된 인프라에서 훈련을 진행하였으며, 정성적(qualitative) 및 정량적(quantitative) 평가에서 여러 비디오 생성 모델보다 우수한 성능을 보였습니다.
https://saiyan-world.github.io/goku/
비디오 생성의 연산 비용 문제를 해결하는 기법 SLIDING TILE ATTENTION
캘리포니아 주립대학 등의 공동 연구진이 기존 비디오 생성 접근방식의 문제점인 연산 비용 문제를 해결할 수 있는 liding Tile Attention(STA) 기법을 제안하였습니다. STA는 사전 학습된 비디오 디퓨전 모델에서 어텐션 점수가 주로 국소적인 3D 윈도우 내에 집중된다는 관찰을 활용하여, 공간-시간 영역 내에서 슬라이딩 방식으로 지역적(Local) 어텐션을 적용함으로써 전체 어텐션의 중복성을 제거합니다. 특히, 큰 단위 슬라이딩 윈도우 어텐션(SWA) 과 달리, STA는 타일(Tile) 단위로 작동하며, 하드웨어 친화적인(hardware-aware) 슬라이딩 윈도우 설계를 적용하여 계산 효율성을 높이면서도 표현력을 유지합니다. 연구진들은 커널 수준 최적화 를 통해 2D/3D 슬라이딩 윈도우 기반의 효율적인 어텐션 구현을 최초로 제공하며, 58.79%의 MFU(Memory Footprint Utilization) 를 달성하여 그 유효성을 입증하였습니다.
https://arxiv.org/pdf/2502.04507
2017년부터 명맥을 이어온 AI명문
아이펠리서치 온라인13기 사전등록 : https://bit.ly/4jzwrSS
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 2월 11일 오전 10:06
이
... 더 보기