[0408]모두에게 전하는 모두연 AI뉴스!

* 1분 비디오 생성의 벽 넘기: TTT 레이어 통합 확산 트랜스포머 트랜스포머 모델은 긴 컨텍스트 처리 시 셀프 어텐션의 비효율성으로 1분 길이 비디오 생성에 어려움을 겪으며, Mamba 등 RNN 대안은 은닉 상태 표현력 한계로 복잡한 스토리 생성에 약합니다. 본 연구는 표현력이 더 높은 신경망(MLP) 기반 은닉 상태를 가진 테스트 시간 훈련(TTT) 레이어를 사전 훈련된 확산 트랜스포머에 통합하여 1분 길이 비디오 생성을 시도합니다. '톰과 제리' 데이터셋과 텍스트 스토리보드로 미세 조정한 결과, Mamba 2 등 베이스라인 대비 인간 평가에서 34 Elo 포인트 앞서며 복잡한 스토리를 가진 더 일관된 동적 비디오를 생성했습니다. 다만, 아티팩트와 효율성 문제는 여전히 남아있습니다. https://huggingface.co/papers/2504.05298 * JAILDAM: 메모리 기반 동적 업데이트로 VLM 탈옥 공격 잡는다 이 논문은 비전-언어 모델(VLM)에서 의도적으로 안전 메커니즘을 우회하여 유해 콘텐츠 생성을 유도하는 탈옥 공격을 탐지하는 새로운 프레임워크 'JAILDAM'을 제안합니다. 기존 방식들은 모델 내부 접근 필요성, 높은 계산 비용, 레이블링된 유해 데이터셋 의존성 등의 문제가 있었습니다. JAILDAM은 정책 기반의 안전하지 않은 지식 표현을 활용한 메모리 기반 접근법을 사용하며, 유해 데이터 없이 테스트 시간에 메모리를 동적으로 업데이트하여 새로운 공격 유형에 대한 일반화 성능과 효율성을 높입니다. 실험 결과, JAILDAM은 기존 방법들보다 더 높은 정확도와 속도로 유해 콘텐츠 탐지 성능을 개선했습니다. https://huggingface.co/papers/2504.03770

[0408]모두에게 전하는 모두연 AI뉴스!

알림