Paper page - LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
huggingface.co
스마트폰을 자동화하는 LLM 에이전트: 프레임워크, 모델링, 데이터, 과제 총정리
이 논문은 LLM(거대 언어 모델) 기반 스마트폰 GUI 에이전트 자동화 기술의 발전과 전망을 체계적으로 검토합니다.기존 스크립트 기반 자동화의 한계를 LLM의 발전된 언어 이해, 멀티모달 인식, 의사결정 능력으로 어떻게 해결하는지 설명합니다. 에이전트 프레임워크(단일/다중 에이전트, 계획-후-실행), 모델링 접근법(프롬프트 엔지니어링, 학습 기반), 데이터셋 및 벤치마크를 포함한 분류 체계를 제안합니다. 또한, 작업별 아키텍처, 지도 미세 조정(SFT), 강화 학습(RL) 전략 등 기술적 세부 사항과 함께 데이터셋 다양성, 기기 내 배포 효율성, 보안 등 향후 과제를 논하며, 연구자와 실무자를 위한 참조 자료를 제공합니다.
https://huggingface.co/papers/2504.19838
RepText: 오픈소스 T2I 모델로 비공개 다국어 모델급 텍스트 렌더링 달성
이 논문은 사전 훈련된 단일 언어 텍스트-이미지(T2I) 모델, 특히 최신 DiT 기반 모델이 다국어 시각적 텍스트를 정확하게 렌더링(복제)하도록 하는 RepText 프레임워크를 제안합니다. 텍스트 이해가 렌더링의 필수 조건은 아니라는 가정 하에, RepText는 ControlNet 방식에 원하는 텍스트의 캐니 엣지와 위치 이미지를 조건으로 사용하고 텍스트 인식 손실(OCR 기반)을 추가하여 학습합니다. 추론 시에는 '글리프 잠재 공간 복제' 기법으로 초기화하고 '영역 마스킹'을 적용하여 텍스트 정확도와 이미지 품질을 향상시킵니다.실험 결과, RepText는 기존 오픈소스 방법보다 우수하며 비공개 다국어 모델과 유사한 성능을 보입니다.
https://huggingface.co/papers/2504.19724
다음 내용이 궁금하다면?
이미 회원이신가요?
2025년 4월 29일 오전 8:16