Paper page - Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models
huggingface.co
장문맥 VLM 한계 돌파: Eagle 2.5 프레임워크와 Eagle-Video-110K 데이터셋
이 논문은 긴 비디오 이해 및 고해상도 이미지 처리를 위한 장문맥(long-context) 비전-언어 모델(VLM)인 Eagle 2.5 제품군을 소개합니다. 기존 VLM의 장문맥 처리 한계를 극복하기 위해, 이미지 영역을 보존하고(Image Area Preservation) 자동으로 시각/텍스트 정보를 조절하는 샘플링 기법(Automatic Degradation Sampling) 및 점진적 후훈련 전략을 포함한 범용 프레임워크를 제안합니다. 또한, 스토리 수준과 클립 수준 주석을 통합하여 긴 비디오 이해를 돕는 Eagle-Video-110K 데이터셋을 구축했습니다. Eagle 2.5는 장문맥 벤치마크에서 상당한 성능 향상을 보이며, 특히 8B 모델은 Video-MME 벤치마크에서 GPT-40 등 대형 모델과 유사한 결과를 달성했습니다.
https://huggingface.co/papers/2504.15271
X-Teaming: 적응형 다중 에이전트 기반 다중 턴 LM 공격·방어 프레임워크
이 논문은 여러 번의 대화에 걸쳐 유해한 의도를 숨기는 다중 턴(multi-turn) 언어 모델(LM) 공격 및 방어를 위한 적응형 다중 에이전트 프레임워크 X-Teaming을 제안합니다. 기존 단일 턴(single-turn) 안전성 연구의 한계를 넘어, X-Teaming은 기획, 공격 최적화, 검증 에이전트의 협력을 통해 다양하고 효과적인 다중 턴 탈옥(jailbreak) 시나리오를 자동으로 생성합니다. 이 프레임워크는 주요 LM에 대해 최대 98.1%의 공격 성공률(Claude 3.7 Sonnet 96.2% 포함)을 달성했습니다. 또한, 다중 턴 안전성 학습을 위한 대규모 데이터셋 XGuard-Train(30K 대화)을 구축 및 공개하여, 이를 학습한 모델은 향상된 방어 능력을 보였습니다.
https://huggingface.co/papers/2504.1320
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 23일 오전 7:12
시작하기 앞서, 이 글에서는 AI 기술과 알고리즘을 활용하여 소프트웨어 테스팅을 개선하는 관점에서의 AI 테스트를 다루는 것이 아니라 AI 기반 소프트웨어를 테스트하는 방법에 대한 개념을 설명합니다.
... 더 보기오
... 더 보기외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?
... 더 보기