[1128]모두에게 전하는 모두연 AI뉴스!

  • ShowUI: 혁신적인 GUI 에이전트

ShowUI는 그래픽 사용자 인터페이스(GUI) 시각-언어-행동 모델로, 시각 정보를 기반으로 UI를 인식하고 작업을 수행하는 혁신적인 기능을 제공합니다. 이 모델은 스크린샷을 UI 연결 그래프로 공식화하여 중복 관계를 제거하고 계산 비용을 줄이며, 비전-언어-액션 스트리밍을 통해 탐색 및 멀티턴 쿼리-행동 시퀀스를 효과적으로 통합합니다. 또한, 신중한 데이터 큐레이션과 리샘플링 전략으로 소규모 고품질 GUI 명령-추종 데이터 세트를 생성했습니다. ShowUI는 제로샷 스크린샷 접지에서 75.1%의 정확도를 기록하며, 훈련 중 중복 토큰을 33% 줄이고 성능을 1.4배 향상시키는 등 GUI 시각 에이전트 분야에서 높은 효율성과 잠재력을 보여줍니다.


https://huggingface.co/papers/2411.17465


  • SketchAgent: 대화형 언어 기반 순차적 스케치 생성 및 수정 플랫폼

SketchAgent는 언어 기반의 순차적 스케치 생성 방법으로, 사용자가 대화형 상호작용을 통해 스케치를 생성, 수정, 다듬을 수 있도록 합니다. 이 방법은 미세 조정 없이 상용 멀티모달 대규모 언어 모델(LLM)의 순차적 특성과 사전 지식을 활용하여 직관적인 스케치 언어를 도입합니다. 문자열 기반 작업을 통해 벡터 그래픽으로 스케치를 생성하고, 이를 렌더링하여 픽셀 캔버스에 표현합니다. SketchAgent는 한 획씩 스케치를 그리며 동적이고 진화하는 스케치의 특성을 포착하고, 인간 사용자와의 대화 중심 협업을 통해 다양한 프롬프트에 대응할 수 있음을 입증했습니다.


https://huggingface.co/papers/2411.17673


[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx


기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk

Paper page - ShowUI: One Vision-Language-Action Model for GUI Visual Agent

huggingface.co

Paper page - ShowUI: One Vision-Language-Action Model for GUI Visual Agent

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 11월 28일 오전 7:14

댓글 0

    함께 읽은 게시물

    예제로 뿌수는 코틀린 Kotlin 프로그래밍 76제

    안드로이드 네이티브 앱 개발의 표준 언어이자, 최근 백엔드 개발에도 공격적으로 활용되고 있는 코틀린 프로그래밍 언어를 다양한 예제를 통해 배울 수 있는 온라인 학습 사이트를 공개합니다. 코틀린 공식 홈페이지에 있는 Kotlin By Example이라는 자료는 편역해서 구성했어요. 저는 NHN에 근무할 때 코틀린을 백엔드 API서버 개발에 활용한 경험이 있는데, 자바로 개발할 때보다 훨씬 편하고 즐거웠던 게 기억에 남았습니다. 코틀린을 배우시려거나, 이미 쓰고 있는데 궁금한 점이 많으셨던 분들에게 유용한... 더 보기

    예제로 격파하는 코틀린

    Hatemogi

    예제로 격파하는 코틀린

     • 

    저장 42 • 조회 2,399


    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자로" 강의를

    ... 더 보기

    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자"로

    www.productengineer.info

    Next.js 까보기: "쓸 줄 아는 개발자"에서 "알고 쓰는 개발자"로

     • 

    저장 8 • 조회 719



    결과보다 과정을

    

    ... 더 보기

     • 

    댓글 1 • 저장 4 • 조회 568


    ✍️ 오늘은 PM이 읽어볼만한 책을 한 권 소개해드릴까 해요. 스스로의 동기부여가 어려운 분들이나, 동료를 설득해야되는 PM이나, 조직에 자발적 활력을 만들어내고 싶은 조직장 모두가 읽어볼만한 책입니다. — 📖 <스타트 위드 와이: 나는 왜 이 일을 하는가> 🔖 이성적 범주에 속하는 WHAT은 WHY에서 느껴지는 감정을 겉으로 보여주는 근거 역할을 한다. 어떤 직감으로 결정을 내렸는지 말로 표현할 수 있고 자신의 WHY를 명확히 설명할 수 있으면 주변 사람들에게 결정을 내린 이유를 분명히 이해시킬 수 있다. 이 결정이 객관적인 사실이나 수치와 일관성을 이룬다면 근거은 더욱 타당해진다. 이것이 바로 균형이다. (129p) — PM으로 일하면서 가장 어려운 일이 무엇이냐고 물어보면, 대부분 why를 조직장이나 동료들에게 설득하는 과정을 원탑으로 꼽을 겁니다. 문제를 정확히 정의하고, 논리를 만드는 것도 어렵고, 그것을 말이나 글로 표현해 내는 것도 어렵죠. 그래서 프로젝트 문서에 정량적인 데이터 분석을 수반하고, 숫자를 통해 프로젝트의 공감대를 형성하려고 시도할 때가 생깁니다. 하지만 Why에 대해 본인이 충... 더 보기

    《Simple Truth》

    ... 더 보기