Paper page - Web-Shepherd: Advancing PRMs for Reinforcing Web Agents
huggingface.co
웹 네비게이션 자동화를 위한 혁신: 단계별 프로세스 보상 모델 Web-Shepherd 및 평가 벤치마크 공개
본 문서는 반복적인 실제 작업을 자동화할 수 있지만 긴 호흡의 순차적 의사 결정을 요구하여 기존 멀티모달 대형 언어 모델(MLLM) 작업보다 도전적인 웹 네비게이션 영역을 위한 최초의 단계별 프로세스 보상 모델(PRM)인 Web-Shepherd를 제안합니다. 기존에는 웹 네비게이션을 위한 훈련 및 테스트 단계 모두에 활용 가능한 특화된 보상 모델이 부재했으며, 속도와 비용 효율성의 중요성에도 불구하고 MLLM을 보상 모델로 사용하여 실제 배포에 제약이 있었습니다. 이러한 문제를 해결하기 위해, 본 연구는 4만 개의 단계별 선호도 쌍과 다양한 도메인 및 난이도의 주석 처리된 체크리스트를 포함하는 대규모 데이터셋 WebPRM Collection을 구축했습니다. 또한, PRM 평가를 위한 최초의 메타 평가 벤치마크인 WebRewardBench를 도입합니다. 실험 결과, Web-Shepherd는 WebRewardBench에서 GPT-4o를 사용하는 것보다 약 30점 높은 정확도를 달성했습니다. 나아가, WebArena-lite 환경에서 GPT-4o-mini를 정책 모델로, Web-Shepherd를 검증 모델로 사용했을 때, GPT-4o-mini를 검증 모델로 사용한 경우보다 10.9점 높은 성능을 10배 적은 비용으로 달성했습니다. 제안된 모델, 데이터셋, 코드는 공개적으로 제공됩니다.
https://huggingface.co/papers/2505.15277
대규모 언어 모델의 효율적 배포를 위한 QAT: 통합 스케일링 법칙 및 4비트 양자화 오류 심층 분석
본 문서는 대규모 언어 모델(LLM)의 배포 문제를 해결하는 양자화 인식 훈련(QAT)의 스케일링 특성, 특히 4비트 정밀도(W4A4)에서의 이해가 부족한 점에 주목합니다. 기존 QAT 스케일링 법칙이 훈련 토큰 수나 양자화 세분성(granularity) 같은 주요 요소를 간과하는 한계를 극복하기 위해, 본 연구는 모델 크기, 훈련 데이터 양, 양자화 그룹 크기의 함수로 양자화 오류를 모델링하는 통합 스케일링 법칙을 제안합니다. 268건의 QAT 실험을 통해, 모델 크기가 커질수록 양자화 오류는 감소하지만, 훈련 토큰이 많아지거나 양자화 세분성이 거칠어질수록 오류가 증가함을 확인했습니다. 나아가 W4A4 양자화 오류의 원인 규명을 위해 이를 가중치 및 활성화 요소로 분해하여 분석한 결과, 두 요소 모두 전체적인 오류 경향을 따르지만 민감도에서 차이를 보였으며, 특히 가중치 양자화 오류가 훈련 토큰 증가에 더 민감하게 반응함을 확인했습니다. 분석 결과, FC2 계층의 이상치(outliers)로 인한 활성화 양자화 오류가 W4A4 QAT의 주된 병목임을 밝혀냈고, 혼합 정밀도 양자화를 적용하여 이 병목을 해결함으로써 가중치와 활성화 양자화 오류를 유사한 수준으로 수렴시킬 수 있음을 보였습니다. 또한, 훈련 데이터가 더 많아지면 가중치 양자화 오류가 활성화 오류를 초과하게 되어, 이러한 시나리오에서는 가중치 양자화 오류 감소의 중요성도 강조합니다. 이러한 발견들은 QAT 연구 개발 개선을 위한 핵심 통찰을 제공합니다.
https://huggingface.co/papers/2505.14302
AI 전문가로 가는 최적의 여정, 인공지능학교 아이펠 14기 모집중 : https://aiffel.io/
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 5월 23일 오전 6:22
Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를
... 더 보기