[0523] 모두에게 전하는 모두연 AI뉴스!

  • 웹 네비게이션 자동화를 위한 혁신: 단계별 프로세스 보상 모델 Web-Shepherd 및 평가 벤치마크 공개

본 문서는 반복적인 실제 작업을 자동화할 수 있지만 긴 호흡의 순차적 의사 결정을 요구하여 기존 멀티모달 대형 언어 모델(MLLM) 작업보다 도전적인 웹 네비게이션 영역을 위한 최초의 단계별 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 기존에는 웹 네비게이션을 위한 훈련 및 테스트 단계 모두에 활용 가능한 특화된 보상 모델이 부재했으며, 속도와 비용 효율성의 중요성에도 불구하고 MLLM을 보상 모델로 사용하여 실제 배포에 제약이 있었습니다. 이러한 문제를 해결하기 위해, 본 연구는 4만 개의 단계별 선호도 쌍과 다양한 도메인 및 난이도의 주석 처리된 체크리스트를 포함하는 대규모 데이터셋 WebPRM Collection을 구축했습니다. 또한, PRM 평가를 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 도입합니다. 실험 결과, Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용하는 것보다 약 30점 높은 정확도를 달성했습니다. 나아가, WebArena-lite 환경에서 GPT-4o-mini를 정책 모델로, Web-Shepherd를 검증 모델로 사용했을 때, GPT-4o-mini를 검증 모델로 사용한 경우보다 10.9점 높은 성능을 10배 적은 비용으로 달성했습니다. 제안된 모델, 데이터셋, 코드는 공개적으로 제공됩니다.


https://huggingface.co/papers/2505.15277


  • 대규모 언어 모델의 효율적 배포를 위한 QAT: 통합 스케일링 법칙 및 4비트 양자화 오류 심층 분석

본 문서는 대규모 언어 모델(LLM)의 배포 문제를 해결하는 양자화 인식 훈련(QAT)의 스케일링 특성, 특히 4비트 정밀도(W4A4)에서의 이해가 부족한 점에 주목합니다. 기존 QAT 스케일링 법칙이 훈련 토큰 수나 양자화 세분성(granularity) 같은 주요 요소를 간과하는 한계를 극복하기 위해, 본 연구는 모델 크기, 훈련 데이터 양, 양자화 그룹 크기의 함수로 양자화 오류를 모델링하는 통합 스케일링 법칙을 제안합니다. 268건의 QAT 실험을 통해, 모델 크기가 커질수록 양자화 오류는 감소하지만, 훈련 토큰이 많아지거나 양자화 세분성이 거칠어질수록 오류가 증가함을 확인했습니다. 나아가 W4A4 양자화 오류의 원인 규명을 위해 이를 가중치 및 활성화 요소로 분해하여 분석한 결과, 두 요소 모두 전체적인 오류 경향을 따르지만 민감도에서 차이를 보였으며, 특히 가중치 양자화 오류가 훈련 토큰 증가에 더 민감하게 반응함을 확인했습니다. 분석 결과, FC2 계층의 이상치(outliers)로 인한 활성화 양자화 오류가 W4A4 QAT의 주된 병목임을 밝혀냈고, 혼합 정밀도 양자화를 적용하여 이 병목을 해결함으로써 가중치와 활성화 양자화 오류를 유사한 수준으로 수렴시킬 수 있음을 보였습니다. 또한, 훈련 데이터가 더 많아지면 가중치 양자화 오류가 활성화 오류를 초과하게 되어, 이러한 시나리오에서는 가중치 양자화 오류 감소의 중요성도 강조합니다. 이러한 발견들은 QAT 연구 개발 개선을 위한 핵심 통찰을 제공합니다.


https://huggingface.co/papers/2505.14302


AI 전문가로 가는 최적의 여정, 인공지능학교 아이펠 14기 모집중 : https://aiffel.io/

Paper page - Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

huggingface.co

Paper page - Web-Shepherd: Advancing PRMs for Reinforcing Web Agents

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 5월 23일 오전 6:22

댓글 0

    함께 읽은 게시물

    예제로 뿌수는 코틀린 Kotlin 프로그래밍 76제

    안드로이드 네이티브 앱 개발의 표준 언어이자, 최근 백엔드 개발에도 공격적으로 활용되고 있는 코틀린 프로그래밍 언어를 다양한 예제를 통해 배울 수 있는 온라인 학습 사이트를 공개합니다. 코틀린 공식 홈페이지에 있는 Kotlin By Example이라는 자료는 편역해서 구성했어요. 저는 NHN에 근무할 때 코틀린을 백엔드 API서버 개발에 활용한 경험이 있는데, 자바로 개발할 때보다 훨씬 편하고 즐거웠던 게 기억에 남았습니다. 코틀린을 배우시려거나, 이미 쓰고 있는데 궁금한 점이 많으셨던 분들에게 유용한... 더 보기

    예제로 격파하는 코틀린

    Hatemogi

    예제로 격파하는 코틀린

     • 

    저장 42 • 조회 2,400


    ✍️ 오늘은 PM이 읽어볼만한 책을 한 권 소개해드릴까 해요. 스스로의 동기부여가 어려운 분들이나, 동료를 설득해야되는 PM이나, 조직에 자발적 활력을 만들어내고 싶은 조직장 모두가 읽어볼만한 책입니다. — 📖 <스타트 위드 와이: 나는 왜 이 일을 하는가> 🔖 이성적 범주에 속하는 WHAT은 WHY에서 느껴지는 감정을 겉으로 보여주는 근거 역할을 한다. 어떤 직감으로 결정을 내렸는지 말로 표현할 수 있고 자신의 WHY를 명확히 설명할 수 있으면 주변 사람들에게 결정을 내린 이유를 분명히 이해시킬 수 있다. 이 결정이 객관적인 사실이나 수치와 일관성을 이룬다면 근거은 더욱 타당해진다. 이것이 바로 균형이다. (129p) — PM으로 일하면서 가장 어려운 일이 무엇이냐고 물어보면, 대부분 why를 조직장이나 동료들에게 설득하는 과정을 원탑으로 꼽을 겁니다. 문제를 정확히 정의하고, 논리를 만드는 것도 어렵고, 그것을 말이나 글로 표현해 내는 것도 어렵죠. 그래서 프로젝트 문서에 정량적인 데이터 분석을 수반하고, 숫자를 통해 프로젝트의 공감대를 형성하려고 시도할 때가 생깁니다. 하지만 Why에 대해 본인이 충... 더 보기

    실력 향상을 위한 해외 유튜브 채널 10개

    취업 준비와 코딩 공부할 때 도움 되는 해외 유튜브 채널 10개를 간략하게 소개합니다. 1. Gaurav Sen: https://www.youtube.com/@gkcs - 전반적인 개발자 성장(특히 주니어와 시니어), 취업, 코딩 공부 노하우 - 시스템 설계의 기초 개념 설명 영상이 많다. 특정 시스템 설계를 분석하거나 모의 면접하는 영상이 꽤 많지만 개인적으로 설명이 겉도는 느낌이 있다 - 주니어+/중니어+에게 특화된 취업 및 공부 노하우 2. Abdul Bari(컴공 전공, 알고리즘 공부 필수 채널): https:... 더 보기

    Gaurav Sen

    www.youtube.com

    Gaurav Sen

     • 

    저장 294 • 조회 8,662


    어려운 문제를 대하는 태도

    

    ... 더 보기

    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를

    ... 더 보기

    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자"로

    www.productengineer.info

    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자"로

     • 

    저장 8 • 조회 731


    《Simple Truth》

    ... 더 보기