[0429]모두에게 전하는 모두연 AI뉴스!

  • 스마트폰을 자동화하는 LLM 에이전트: 프레임워크, 모델링, 데이터, 과제 총정리

이 논문은 LLM(거대 언어 모델) 기반 스마트폰 GUI 에이전트 자동화 기술의 발전과 전망을 체계적으로 검토합니다.기존 스크립트 기반 자동화의 한계를 LLM의 발전된 언어 이해, 멀티모달 인식, 의사결정 능력으로 어떻게 해결하는지 설명합니다. 에이전트 프레임워크(단일/다중 에이전트, 계획-후-실행), 모델링 접근법(프롬프트 엔지니어링, 학습 기반), 데이터셋 및 벤치마크를 포함한 분류 체계를 제안합니다. 또한, 작업별 아키텍처, 지도 미세 조정(SFT), 강화 학습(RL) 전략 등 기술적 세부 사항과 함께 데이터셋 다양성, 기기 내 배포 효율성, 보안 등 향후 과제를 논하며, 연구자와 실무자를 위한 참조 자료를 제공합니다.


https://huggingface.co/papers/2504.19838


  • RepText: 오픈소스 T2I 모델로 비공개 다국어 모델급 텍스트 렌더링 달성

이 논문은 사전 훈련된 단일 언어 텍스트-이미지(T2I) 모델, 특히 최신 DiT 기반 모델이 다국어 시각적 텍스트를 정확하게 렌더링(복제)하도록 하는 RepText 프레임워크를 제안합니다. 텍스트 이해가 렌더링의 필수 조건은 아니라는 가정 하에, RepText는 ControlNet 방식에 원하는 텍스트의 캐니 엣지와 위치 이미지를 조건으로 사용하고 텍스트 인식 손실(OCR 기반)을 추가하여 학습합니다. 추론 시에는 '글리프 잠재 공간 복제' 기법으로 초기화하고 '영역 마스킹'을 적용하여 텍스트 정확도와 이미지 품질을 향상시킵니다.실험 결과, RepText는 기존 오픈소스 방법보다 우수하며 비공개 다국어 모델과 유사한 성능을 보입니다.


https://huggingface.co/papers/2504.19724

Paper page - LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

huggingface.co

Paper page - LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2025년 4월 29일 오전 8:16

댓글 0

    함께 읽은 게시물

    어려운 문제를 대하는 태도

    

    ... 더 보기

    예제로 뿌수는 코틀린 Kotlin 프로그래밍 76제

    안드로이드 네이티브 앱 개발의 표준 언어이자, 최근 백엔드 개발에도 공격적으로 활용되고 있는 코틀린 프로그래밍 언어를 다양한 예제를 통해 배울 수 있는 온라인 학습 사이트를 공개합니다. 코틀린 공식 홈페이지에 있는 Kotlin By Example이라는 자료는 편역해서 구성했어요. 저는 NHN에 근무할 때 코틀린을 백엔드 API서버 개발에 활용한 경험이 있는데, 자바로 개발할 때보다 훨씬 편하고 즐거웠던 게 기억에 남았습니다. 코틀린을 배우시려거나, 이미 쓰고 있는데 궁금한 점이 많으셨던 분들에게 유용한... 더 보기

    예제로 격파하는 코틀린

    Hatemogi

    예제로 격파하는 코틀린

     • 

    저장 42 • 조회 2,401


    ✍️ 오늘은 PM이 읽어볼만한 책을 한 권 소개해드릴까 해요. 스스로의 동기부여가 어려운 분들이나, 동료를 설득해야되는 PM이나, 조직에 자발적 활력을 만들어내고 싶은 조직장 모두가 읽어볼만한 책입니다. — 📖 <스타트 위드 와이: 나는 왜 이 일을 하는가> 🔖 이성적 범주에 속하는 WHAT은 WHY에서 느껴지는 감정을 겉으로 보여주는 근거 역할을 한다. 어떤 직감으로 결정을 내렸는지 말로 표현할 수 있고 자신의 WHY를 명확히 설명할 수 있으면 주변 사람들에게 결정을 내린 이유를 분명히 이해시킬 수 있다. 이 결정이 객관적인 사실이나 수치와 일관성을 이룬다면 근거은 더욱 타당해진다. 이것이 바로 균형이다. (129p) — PM으로 일하면서 가장 어려운 일이 무엇이냐고 물어보면, 대부분 why를 조직장이나 동료들에게 설득하는 과정을 원탑으로 꼽을 겁니다. 문제를 정확히 정의하고, 논리를 만드는 것도 어렵고, 그것을 말이나 글로 표현해 내는 것도 어렵죠. 그래서 프로젝트 문서에 정량적인 데이터 분석을 수반하고, 숫자를 통해 프로젝트의 공감대를 형성하려고 시도할 때가 생깁니다. 하지만 Why에 대해 본인이 충... 더 보기


    실력 향상을 위한 해외 유튜브 채널 10개

    취업 준비와 코딩 공부할 때 도움 되는 해외 유튜브 채널 10개를 간략하게 소개합니다. 1. Gaurav Sen: https://www.youtube.com/@gkcs - 전반적인 개발자 성장(특히 주니어와 시니어), 취업, 코딩 공부 노하우 - 시스템 설계의 기초 개념 설명 영상이 많다. 특정 시스템 설계를 분석하거나 모의 면접하는 영상이 꽤 많지만 개인적으로 설명이 겉도는 느낌이 있다 - 주니어+/중니어+에게 특화된 취업 및 공부 노하우 2. Abdul Bari(컴공 전공, 알고리즘 공부 필수 채널): https:... 더 보기

    Gaurav Sen

    www.youtube.com

    Gaurav Sen

     • 

    저장 294 • 조회 8,664


    《Simple Truth》

    ... 더 보기