[1128]모두에게 전하는 모두연 AI뉴스!

  • ShowUI: 혁신적인 GUI 에이전트

ShowUI는 그래픽 사용자 인터페이스(GUI) 시각-언어-행동 모델로, 시각 정보를 기반으로 UI를 인식하고 작업을 수행하는 혁신적인 기능을 제공합니다. 이 모델은 스크린샷을 UI 연결 그래프로 공식화하여 중복 관계를 제거하고 계산 비용을 줄이며, 비전-언어-액션 스트리밍을 통해 탐색 및 멀티턴 쿼리-행동 시퀀스를 효과적으로 통합합니다. 또한, 신중한 데이터 큐레이션과 리샘플링 전략으로 소규모 고품질 GUI 명령-추종 데이터 세트를 생성했습니다. ShowUI는 제로샷 스크린샷 접지에서 75.1%의 정확도를 기록하며, 훈련 중 중복 토큰을 33% 줄이고 성능을 1.4배 향상시키는 등 GUI 시각 에이전트 분야에서 높은 효율성과 잠재력을 보여줍니다.


https://huggingface.co/papers/2411.17465


  • SketchAgent: 대화형 언어 기반 순차적 스케치 생성 및 수정 플랫폼

SketchAgent는 언어 기반의 순차적 스케치 생성 방법으로, 사용자가 대화형 상호작용을 통해 스케치를 생성, 수정, 다듬을 수 있도록 합니다. 이 방법은 미세 조정 없이 상용 멀티모달 대규모 언어 모델(LLM)의 순차적 특성과 사전 지식을 활용하여 직관적인 스케치 언어를 도입합니다. 문자열 기반 작업을 통해 벡터 그래픽으로 스케치를 생성하고, 이를 렌더링하여 픽셀 캔버스에 표현합니다. SketchAgent는 한 획씩 스케치를 그리며 동적이고 진화하는 스케치의 특성을 포착하고, 인간 사용자와의 대화 중심 협업을 통해 다양한 프롬프트에 대응할 수 있음을 입증했습니다.


https://huggingface.co/papers/2411.17673


[아이펠 12기] 2024 마지막 개강
AI 입문부터 활용까지! 코어과정 & 논문으로 완성하는 리서치과정:
https://bit.ly/40T8YFx


기술은 기본, 지표 중심 프로젝트를 완성하는 데이터 분석가 과정
https://bit.ly/4g1gvGk

Paper page - ShowUI: One Vision-Language-Action Model for GUI Visual Agent

huggingface.co

Paper page - ShowUI: One Vision-Language-Action Model for GUI Visual Agent

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 11월 28일 오전 7:14

댓글 0