[0423]모두에게 전하는 모두연 AI뉴스!

  • 장문맥 VLM 한계 돌파: Eagle 2.5 프레임워크와 Eagle-Video-110K 데이터셋

이 논문은 긴 비디오 이해 및 고해상도 이미지 처리를 위한 장문맥(long-context) 비전-언어 모델(VLM)인 Eagle 2.5 제품군을 소개합니다. 기존 VLM의 장문맥 처리 한계를 극복하기 위해, 이미지 영역을 보존하고(Image Area Preservation) 자동으로 시각/텍스트 정보를 조절하는 샘플링 기법(Automatic Degradation Sampling) 및 점진적 후훈련 전략을 포함한 범용 프레임워크를 제안합니다. 또한, 스토리 수준과 클립 수준 주석을 통합하여 긴 비디오 이해를 돕는 Eagle-Video-110K 데이터셋을 구축했습니다. Eagle 2.5는 장문맥 벤치마크에서 상당한 성능 향상을 보이며, 특히 8B 모델은 Video-MME 벤치마크에서 GPT-40 등 대형 모델과 유사한 결과를 달성했습니다.


https://huggingface.co/papers/2504.15271


  • X-Teaming: 적응형 다중 에이전트 기반 다중 턴 LM 공격·방어 프레임워크

이 논문은 여러 번의 대화에 걸쳐 유해한 의도를 숨기는 다중 턴(multi-turn) 언어 모델(LM) 공격 및 방어를 위한 적응형 다중 에이전트 프레임워크 X-Teaming을 제안합니다. 기존 단일 턴(single-turn) 안전성 연구의 한계를 넘어, X-Teaming은 기획, 공격 최적화, 검증 에이전트의 협력을 통해 다양하고 효과적인 다중 턴 탈옥(jailbreak) 시나리오를 자동으로 생성합니다. 이 프레임워크는 주요 LM에 대해 최대 98.1%의 공격 성공률(Claude 3.7 Sonnet 96.2% 포함)을 달성했습니다. 또한, 다중 턴 안전성 학습을 위한 대규모 데이터셋 XGuard-Train(30K 대화)을 구축 및 공개하여, 이를 학습한 모델은 향상된 방어 능력을 보였습니다.


https://huggingface.co/papers/2504.1320

Paper page - Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

huggingface.co

Paper page - Eagle 2.5: Boosting Long-Context Post-Training for Frontier Vision-Language Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 23일 오전 7:12

댓글 0

    함께 읽은 게시물

    AI 기반 Software Testing "개념 이해"

    시작하기 앞서, 이 글에서는 AI 기술과 알고리즘을 활용하여 소프트웨어 테스팅을 개선하는 관점에서의 AI 테스트를 다루는 것이 아니라 AI 기반 소프트웨어를 테스트하는 방법에 대한 개념을 설명합니다. 

    ... 더 보기

     • 

    저장 43 • 조회 2,800


    회사에 먼저 말하면 안 되는 조건: 연봉

    ... 더 보기

    엔지니어링의 핵심, 유지 보수가 가능한 파이프라인 구성하기

    ... 더 보기

    모던 데이터 파이프라인 구축기: 레거시를 넘어

    Medium

    모던 데이터 파이프라인 구축기: 레거시를 넘어

    앱 개발 개척시대

    A

    ... 더 보기

    앱 개발 개척시대

    K리그 프로그래머

    앱 개발 개척시대

     • 

    저장 9 • 조회 2,496


    🌎 해외에서 일하면 뭐가 좋을까요❓

    외국어를 사용해서? 돈을 더 많이 벌어서? 새로운 기회가 많아서? 글로벌 경력을 쌓을 수 있어서?

    ... 더 보기

    나는 아직도 데이터 분석에 배고프다

    책 [데이터 드리븐 리포트]를 읽고 764

    ... 더 보기