[0421]모두에게 전하는 모두연 AI뉴스!

  • FramePack: '망각'과 '드리프트' 극복 위한 비디오 생성 신경망 구조

이 논문은 비디오 생성 시 다음 프레임 예측 모델의 '망각'(과거 내용 불일치)과 '드리프트'(오류 누적으로 인한 품질 저하) 문제를 해결하기 위한 FramePack 신경망 구조를 제안합니다. FramePack은 입력 프레임들을 중요도에 따라 점진적으로 압축하여, 비디오 길이에 관계없이 트랜스포머의 컨텍스트 길이를 고정된 상한으로 수렴시킵니다. 이를 통해 계산 병목 현상을 이미지 확산 모델 수준으로 유지하면서 더 많은 프레임을 처리하고, 학습 시 더 큰 배치 크기를 사용할 수 있습니다. 또한, 오류 누적(노출 편향)을 피하기 위해 엔드포인트를 미리 설정하거나 프레임을 역시간 순서로 생성하는 안티-드리프트 샘플링 기법도 제안합니다. 기존 비디오 확산 모델을 FramePack으로 미세 조정 가능하며, 이를 통해 시각적 품질이 개선될 수 있음을 보입니다.


https://huggingface.co/papers/2504.12626


  • CLIMB: 클러스터링과 반복 탐색으로 최적 데이터 혼합 자동화

이 논문은 언어 모델 사전 훈련 시 최적의 데이터 혼합 비율을 찾는 자동화된 프레임워크 CLIMB(클러스터링 기반 반복 데이터 혼합 부트스트래핑)을 제안합니다. 기존 웹 데이터셋은 도메인 구분이 없어 최적의 혼합 비율을 찾기 어렵다는 문제를 해결하기 위해, CLIMB는 대규모 데이터셋을 임베딩하고 클러스터링하여 의미적 그룹을 만듭니다. 이후 작은 프록시 모델과 성능 예측기를 사용하여 반복적으로 최적의 혼합 비율을 탐색하고 개선합니다. 이 방법으로 찾은 최적 혼합 비율로 400B 토큰을 학습시킨 1B 모델은 기존 최고 성능 모델 Llama-3.2-1B를 2.0% 능가했습니다. 또한 연구용 데이터셋 ClimbLab(1.2조 토큰)과 효율적인 사전 훈련용 ClimbMix(4000억 토큰)를 공개합니다.


https://huggingface.co/papers/2504.13161

Paper page - Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

huggingface.co

Paper page - Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 21일 오전 6:09

댓글 0

    함께 읽은 게시물

    데이터 분석 자격증 Top 9(+5)

    ... 더 보기

    The top 9 data analytics certifications

    CIO

    The top 9 data analytics certifications

     • 

    저장 20 • 조회 2,261


    데이터에 관한 꼭 알아야 할 오해와 진실 25가지

    1

    ... 더 보기

    1인 개발자의 최고의 사무실은 바로 자기집 방구석

    ... 더 보기

    최고의 사무실은 바로 우리집 방구석

    K리그 프로그래머

    최고의 사무실은 바로 우리집 방구석

    ”데이터 분석가, 어떻게 될 수 있나요?”


    ... 더 보기

    Airflow 3.0 주요 기능 소개

    ... 더 보기