골빈해커

Chief Maker

📝 애플의 UI를 이해하는 AI, Ferret-UI

최근 애플이 애플답지 않게 정말 많은 논문을 공개하고 있는데요.

이번엔 UI를 이해하는 MLLM(Multimodal Large Language Model)인 Ferret-UI라는 모델에 대한 논문을 공개했습니다.

이 모델은 모바일 UI 화면을 이해하고, 사용자 지시에 따라 다양한 열린(특정한 작업에 한정되지 않은) 작업을 수행하는 모델입니다.

GPT-4V 같은 기존의 이미지를 인식하는 MLLM의 경우, 앱 상의 요소들을 인식하는 능력은 다소 떨어지는데요. 이 성능을 높이기 위한 연구입니다.

- 아이콘 인식: 화면 상의 아이콘을 식별

- 텍스트 찾기: 인터페이스의 텍스트 인식

- 위젯 나열: 화면에서 사용 가능한 위젯 나열

- 자세한 설명: 보고있는 화면을 설명

- 인식/상호 작용 대화: 화면에 대한 인식을 바탕으로 대화 형태의 상호작용을 수행

애플의 최근 논문들은 역시 인터페이스, 사용자 경험의 애플답게, 대부분 사용자의 디바이스에서 인터페이스를 이해하는 기능을 하는 연구들인데요.

이러한 연구들을 잘 살펴보면 애플이 준비하고 있는 AI가 어떤 것인지 약간의 힌트를 알 수 있지 않을까합니다. (공간 컴퓨팅 내에서 음성으로 객체들을 인식하고 다루기, 애플 숏컷 기능을 이용해 앱 자동화하기 등)

다음 내용이 궁금하다면?

이미 회원이신가요?

2024년 4월 9일 오후 4:27

•

저장 22 • 조회 3,457

골빈해커
작성자
Chief Maker • 2024년 04월 09일
‪🔗 논문 주소 https://arxiv.org/abs/2404.05719‬

함께 읽은 게시물

골빈해커

Chief Maker

2일 전

이제 개발자(응용 애플리케이션 개발자, 대부분의 백엔드도 응용 어플리케이션이다)는 더이상 병목이 아니어야한다. 오히려 기획자와 디자이너가 병목이 되게 만드는 개발자만이 살아남을 것이며, 이전에도 그랬지만 앞으로는 더더욱 개발자가 기획 및 디자인 역량도 갖추어야 경쟁력이 있을 것이다.

저장 3 • 조회 918

골빈해커

Chief Maker

3일 전

OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.

저장 7 • 조회 1,671

장홍석

스페이스오디티 부대표/CPO

하루 전

< ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

댓글 1 • 저장 2 • 조회 364

비슷한 게시물

닥터G UX 디자이너 & 리서처

3월 IT뉴스

김영욱 SAP France 프로덕트 매니저

<팀 쿡 인터뷰: 애플이 여러분의 생명을 구하기를 원합니다.>

닥터G UX 디자이너 & 리서처

8월 넷째주 IT News

골빈해커 Chief Maker

최근의 AI 소식은 대부분 성능 2% 좋아졌어요. 속도 2배 빨라졌어요. 에이전트 합의 시스템으로 할루시네이션을 줄일 수 있어요. 이런 당연한(?) 약간 시큰둥해 있었다.

박종민 디자인 리드

애플 인텔리전스: 모두를 위한 AI

Augmentia Dataa Scientist | AI-powered | PhD

Apple Intelligence에 통합된 Ferret-UI 기술 💡

주간 인기 TOP 10

골빈해커 Chief Maker

앞으로의 코테는 설명을 주고 코드를 짜라고 하는 것이 아니라, 코

장홍석 스페이스오디티 부대표/CPO

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

Arawn Park Senior Engineer & Engineering Lead

자바 25를 사용해야 하는 이유

석민 커리어 코치

효과적인 경력 기술 가이드

레드버스백맨 리서처 앤 라이터

⟪통계청 2024년 생활시간조사로 본 7가지 핵심 데이터⟫

psmon 블룸에이아이 서버 엔지니어

PRD분석 AI툴

한성규 '지금 써보러 갑니다' '팁스터 뉴스레터' 운영자

📈 성과지표(KPI), 이렇게 설정하고 관리합니다

전민우 백엔드개발자

기능 정의의 중요성

달레 Apollo GraphQL Software Engineer

📊 스택 오버플로우 2025년 개발자 설문조사 결과 💡

박세호 피저블 랩 프로덕트 매니저

실제로 동작하는 PRD란

📝 애플의 UI를 이해하는 AI, Ferret-UI

댓글 1

함께 읽은 게시물

< ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

비슷한 게시물

주간 인기 TOP 10

추천 프로필