[0117]모두에게 전하는 모두연 AI뉴스!

  • ViTok: 이미지/비디오 생성, 토크나이저 스케일링으로 새로운 돌파구를 찾다!

이 논문은 이미지와 비디오 생성 모델에서 중요한 역할을 하는 시각적 토크나이저(visual tokenizer)의 스케일링 효과를 연구합니다. 연구진은 기존의 CNN 기반 구조 대신 Vision Transformer 기반의 'ViTok'을 제안하고, ImageNet-1K를 넘어서는 대규모 데이터셋으로 실험을 진행했습니다. 연구 결과, 토크나이저의 병목현상(bottleneck)을 확장하면 재구성(reconstruction) 성능은 향상되지만 생성(generation) 성능과는 더 복잡한 관계가 있음을 발견했습니다. 또한 인코더 스케일링은 성능 향상에 거의 도움이 되지 않았으며, 디코더 스케일링은 재구성 성능은 향상시켰지만 생성 성능에는 제한적인 효과만 있었습니다. ViTok은 기존 최고 성능의 모델들과 비교해 2-5배 적은 연산량으로 경쟁력 있는 성능을 달성했으며, 특히 UCF-101 데이터셋에서 비디오 생성 분야의 새로운 최고 성능을 기록했습니다.


https://huggingface.co/papers/2501.09755


  • 디퓨전 모델, 추론 시간 스케일링으로 성능 UP! 계산량 조절로 최적화 달성

디퓨전 모델에서 추론 시간 스케일링에 대한 프레임워크가 제시되었으며, 검색을 통해 계산을 스케일링하면 다양한 모델 크기와 생성 작업에서 성능이 크게 향상될 수 있고, 추론 시간 계산 예산에 따라 스케일링 동작이 달라질 수 있음을 보여줍니다. 검색 프레임워크에서 검증기와 알고리즘을 두 가지 중요한 설계 축으로 식별하여 최적 구성이 작업별로 다르며 보편적인 솔루션이 없음을 보여줍니다. 또한 서로 다른 검증기와 생성 작업 간의 정렬에 대한 조사를 통해 고유한 편향을 밝혀내고 특정 비전 생성 작업에 맞게 보다 신중하게 설계된 검증기의 필요성을 강조합니다.


https://huggingface.co/papers/2501.09732

Paper page - Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

huggingface.co

Paper page - Learnings from Scaling Visual Tokenizers for Reconstruction and Generation

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 1월 17일 오전 11:13

댓글 0

    함께 읽은 게시물

    < '시간이 없다'는 세상에서 가장 흔한 거짓말 >

    1. 오랜만에 만난 사람은 늘 어색하다. 뭔가 말을 건네야 한다. 인사 없이 지나가긴 애매하다. 하지만 대화 주제는 많지 않다. 날씨, 뉴스 얘기 몇 마디는 어떻게 해본다. 하지만 가장 어려운 건 마무리다.

    ... 더 보기

    어려운 문제를 대하는 태도

    

    ... 더 보기

    이력서에 쓰는 경험

    

    ... 더 보기

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들

    1. P

    ... 더 보기

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들

    Growth Ryan

    스크럼 마스터(Scrum Master)가 생각해 볼 질문들

    제품을 빠르게 출시하는 8가지 방법

    ... 더 보기

    How to ship fast

    wrap text ↩

    How to ship fast

    성장을 위해 완벽주의를 버리다

    성장은 무엇인가요? 무엇인가를 얻거나 배우는 것이 성장이라고 생각하시나요? 하지만 내가 스스로 장점이라 생각했던 것을 상황에 따라 바꾸는 것도 성장인 것 같아요 최근에 이렇게 생각을 바꿔가게 되었던 경험을 적어봤습니다

    성장을 위해 완벽주의를 버리다

    Growth Ryan

    성장을 위해 완벽주의를 버리다