📝 애플의 UI를 이해하는 AI, Ferret-UI

최근 애플이 애플답지 않게 정말 많은 논문을 공개하고 있는데요.


이번엔 UI를 이해하는 MLLM(Multimodal Large Language Model)인 Ferret-UI라는 모델에 대한 논문을 공개했습니다.


이 모델은 모바일 UI 화면을 이해하고, 사용자 지시에 따라 다양한 열린(특정한 작업에 한정되지 않은) 작업을 수행하는 모델입니다.


GPT-4V 같은 기존의 이미지를 인식하는 MLLM의 경우, 앱 상의 요소들을 인식하는 능력은 다소 떨어지는데요. 이 성능을 높이기 위한 연구입니다.


- 아이콘 인식: 화면 상의 아이콘을 식별


- 텍스트 찾기: 인터페이스의 텍스트 인식


- 위젯 나열: 화면에서 사용 가능한 위젯 나열


- 자세한 설명: 보고있는 화면을 설명


- 인식/상호 작용 대화: 화면에 대한 인식을 바탕으로 대화 형태의 상호작용을 수행


애플의 최근 논문들은 역시 인터페이스, 사용자 경험의 애플답게, 대부분 사용자의 디바이스에서 인터페이스를 이해하는 기능을 하는 연구들인데요.


이러한 연구들을 잘 살펴보면 애플이 준비하고 있는 AI가 어떤 것인지 약간의 힌트를 알 수 있지 않을까합니다. (공간 컴퓨팅 내에서 음성으로 객체들을 인식하고 다루기, 애플 숏컷 기능을 이용해 앱 자동화하기 등)

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 4월 9일 오후 4:27

 • 

저장 22조회 3,457

함께 읽은 게시물

이제 개발자(응용 애플리케이션 개발자, 대부분의 백엔드도 응용 어플리케이션이다)는 더이상 병목이 아니어야한다. 오히려 기획자와 디자이너가 병목이 되게 만드는 개발자만이 살아남을 것이며, 이전에도 그랬지만 앞으로는 더더욱 개발자가 기획 및 디자인 역량도 갖추어야 경쟁력이 있을 것이다.


OpenAI의 오픈소스 모델 gpt-oss 시리즈의 차별점(?) 중에 하나는 가중치를 4.25bit 양자화해서 공개했다는 것이다.

... 더 보기

< ‘참여’를 설계하면, ‘콘텐츠’는 따라온다 >

1

... 더 보기