Paper page - DiffMoE: Dynamic Token Selection for Scalable Diffusion Transformers
huggingface.co
노이즈 속에서 피어나는 전문성: 글로벌 토큰 풀 기반 DiffMoE
이 논문은 디퓨전 트랜스포머(DiT)를 위한 새로운 MoE(Mixture-of-Experts) 기반 구조인 DiffMoE를 제안합니다. DiffMoE는 훈련 중에 전문가들이 글로벌 토큰 풀에 접근하여 특화된 전문성을 학습하도록 유도하며, 노이즈 수준과 샘플 복잡성에 따라 컴퓨팅 자원을 동적으로 할당하는 용량 예측기를 포함합니다. ImageNet 벤치마크에서 최첨단 성능을 달성하며, 더 많은 파라미터를 활성화하는 밀집 구조와 기존 MoE 방식보다 뛰어난 성능을 보여줍니다. 프로젝트 페이지도 제공됩니다.
https://huggingface.co/papers/2503.14487
LLM, 생각을 압축하다: 효율적인 추론을 위한 체계적인 탐구
이 논문은 거대 언어 모델(LLM)의 효율적인 추론에 대한 첫 번째 체계적인 설문 조사를 제공합니다. LLM이 복잡한 작업에서 뛰어난 능력을 보여주지만, 긴 사고 과정이 성능 향상과 함께 불필요하게 자세하고 중복된 결과로 인한 계산 비용 증가라는 "과잉 사고 현상"을 야기함을 지적합니다. 이에 효율적인 추론은 추론 능력을 유지하면서 추론 길이를 최적화하는 것을 목표로 하며, 실제 애플리케이션에서 계산 비용을 줄이고 응답성을 향상시키는 데 중요한 역할을 합니다. 본 논문은 효율적인 LLM 추론을 위한 다양한 기술과 접근 방식을 탐구하며, 이 분야의 연구 동향을 종합적으로 제시합니다.
https://huggingface.co/papers/2503.16419
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 3월 21일 오전 8:33