[0423]모두에게 전하는 모두연 AI뉴스!

  • 장문맥 VLM 한계 돌파: Eagle 2.5 프레임워크와 Eagle-Video-110K 데이터셋

이 논문은 긴 비디오 이해 및 고해상도 이미지 처리를 위한 장문맥(long-context) 비전-언어 모델(VLM)인 Eagle 2.5 제품군을 소개합니다. 기존 VLM의 장문맥 처리 한계를 극복하기 위해, 이미지 영역을 보존하고(Image Area Preservation) 자동으로 시각/텍스트 정보를 조절하는 샘플링 기법(Automatic Degradation Sampling) 및 점진적 후훈련 전략을 포함한 범용 프레임워크를 제안합니다. 또한, 스토리 수준과 클립 수준 주석을 통합하여 긴 비디오 이해를 돕는 Eagle-Video-110K 데이터셋을 구축했습니다. Eagle 2.5는 장문맥 벤치마크에서 상당한 성능 향상을 보이며, 특히 8B 모델은 Video-MME 벤치마크에서 GPT-40 등 대형 모델과 유사한 결과를 달성했습니다.


https://huggingface.co/papers/2504.15271


  • X-Teaming: 적응형 다중 에이전트 기반 다중 턴 LM 공격·방어 프레임워크

이 논문은 여러 번의 대화에 걸쳐 유해한 의도를 숨기는 다중 턴(multi-turn) 언어 모델(LM) 공격 및 방어를 위한 적응형 다중 에이전트 프레임워크 X-Teaming을 제안합니다. 기존 단일 턴(single-turn) 안전성 연구의 한계를 넘어, X-Teaming은 기획, 공격 최적화, 검증 에이전트의 협력을 통해 다양하고 효과적인 다중 턴 탈옥(jailbreak) 시나리오를 자동으로 생성합니다. 이 프레임워크는 주요 LM에 대해 최대 98.1%의 공격 성공률(Claude 3.7 Sonnet 96.2% 포함)을 달성했습니다. 또한, 다중 턴 안전성 학습을 위한 대규모 데이터셋 XGuard-Train(30K 대화)을 구축 및 공개하여, 이를 학습한 모델은 향상된 방어 능력을 보였습니다.


https://huggingface.co/papers/2504.1320

Paper page - Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

huggingface.co

Paper page - Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 23일 오전 7:12

댓글 0

    함께 읽은 게시물


    < 그놈의 생각이 멈추지 않을 때 >

    1. 존재와의 연결을 방해하는 가장 큰 걸림돌은 마음과 자신을 동일시하는 것입니다. 그리고 이것은 우리에게 끊임없이 생각을 하도록 강요합니다.

    ... 더 보기

    해외 대학

    

    ... 더 보기

    적극적으로 실패해라...250626

    1.●느린 성공은 인격을 만든다.
    2.모든 실수는 당신을 더 현명하게 만든다.

    ... 더 보기

    어려운 문제를 대하는 태도

    

    ... 더 보기

    인공지능과 빅테크의 영향력

    많은 작은 신문사(인터넷 신문사)의 등장으로 대형 신문사의 힘이 예전 같지 않다.

    ... 더 보기