[0729]모두에게 전하는 모두연 AI뉴스!

* VLM의 Video Captioning을 위한 자동화 프레임워크 Wolf NVidia와 MIT, Stanford 등의 세계 석학 공동 연구진이 정확한 video captioning을 위한 프레임워크, Wolf를 선보였습니다. Wolf는 비전 언어 모델(VLMs)의 상호 보완적인 강점을 활용하는 Mixture of Experts 기법을 채택한 자동화된 캡셔닝 프레임워크입니다. 이미지와 비디오 모델을 모두 활용함으로써, 다양한 수준의 정보를 포착하고 효율적으로 요약합니다. 이 접근법은 Video understanding, Auto labeling, captioning의 결과를 향상시키는 데 적용될 수 있습니다. 연구자들은 또한, 캡션 품질을 평가하기 위해 CapScore라는 LLM 기반 메트릭을 도입하였습니다. 생성된 캡션과 실제 캡션을 비교하여 유사성과 품질을 평가합니다. 또한, 포괄적인 비교를 용이하게 하기 위해 일상, 자율 주행, 로봇공학의 세 가지 도메인에서 네 개의 인간 주석 데이터셋을 구축했습니다. Wolf는 연구 커뮤니티(VILA1.5, CogAgent)와 상업적 솔루션(Gemini-Pro-1.5, GPT-4V)의 최신 접근법들에 비해 우수한 캡셔닝 성능을 달성함을 보여주었습니다. https://wolfv0.github.io/ * 인간의 일상을 본따 자율 에이전트를 평가하는 도구 AppWorld 자율 에이전트를 일상적인 디지털 작업(예: 가정의 식료품 주문) 수행에 적용하려는 시도가 많아지고 있습니다. 이런 자율 에이전트의 책임있는 개발을 위해서는 실제 디지털 환경의 복잡성과 역동성을 고려한 현실적인 작업을 사용하여 엄격하고, 재현 가능하며, 강건한 평가가 필요합니다. 현재의 기술은 여러 앱(예: 메모, 메시징, 쇼핑 앱)을 API를 통해 작동시켜야 할 뿐만 아니라, 환경과의 상호작용을 바탕으로 복잡한 제어 흐름을 가진 풍부한 코드를 반복적으로 생성해야 합니다. 이러한 도구 사용에 대한 기존의 벤치마크는 단순한 API 호출 순서만을 요구하는 작업만 다루고 있어 부적절합니다. 이러한 격차를 해소하기 위해, SBU와 AllenAI, 스탠포드 공동 연구진은 API를 통해 제어되는 실제 앱과 이를 사용하는 사람들의 고품질 시뮬레이터를 제공하는 AppWorld Engine과 AppWorld를 사용하여 구축된 복잡한 작업과 그 평가 세트인 AppWorld Benchmark를 구축하였습니다. 457개의 API를 통해 작동 가능한 9개의 일상 앱으로 구성된 고품질 실행 환경으로, 약 100명의 가상 사용자들의 삶을 시뮬레이션하는 현실적인 디지털 활동을 구성하였으며 (AppWorld), 풍부하고 상호작용적인 코드 생성이 필요한 750개의 자연스럽고, 다양하며, 도전적인 자율 에이전트 작업 모음을 구성하였습니다 (AppWorld Benchmark). 이 벤치마크는 상태 기반 단위 테스트를 통한 강력한 프로그래밍 방식의 평가를 지원하여, 작업 완료의 다양한 방법을 허용하면서도 예상치 못한 변화, 즉 부수적 손상을 확인합니다. 이 벤치마크에서, GPT4O는 '일반' 작업의 약 49%와 '도전' 작업의 약 30%만을 해결하며, 다른 모델들은 최소 16% 더 낮은 성능을 보였습니다. https://appworld.dev/ [마감임박!] AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기 : https://bit.ly/4ePP8iK

[0729]모두에게 전하는 모두연 AI뉴스!

알림