๐ ์ ํ์ UI๋ฅผ ์ดํดํ๋ AI, Ferret-UI
์ต๊ทผ ์ ํ์ด ์ ํ๋ต์ง ์๊ฒ ์ ๋ง ๋ง์ ๋ ผ๋ฌธ์ ๊ณต๊ฐํ๊ณ ์๋๋ฐ์. ์ด๋ฒ์ UI๋ฅผ ์ดํดํ๋ MLLM(Multimodal Large Language Model)์ธ Ferret-UI๋ผ๋ ๋ชจ๋ธ์ ๋ํ ๋ ผ๋ฌธ์ ๊ณต๊ฐํ์ต๋๋ค. ์ด ๋ชจ๋ธ์ ๋ชจ๋ฐ์ผ UI ํ๋ฉด์ ์ดํดํ๊ณ , ์ฌ์ฉ์ ์ง์์ ๋ฐ๋ผ ๋ค์ํ ์ด๋ฆฐ(ํน์ ํ ์์ ์ ํ์ ๋์ง ์์) ์์ ์ ์ํํ๋ ๋ชจ๋ธ์ ๋๋ค. GPT-4V ๊ฐ์ ๊ธฐ์กด์ ์ด๋ฏธ์ง๋ฅผ ์ธ์ํ๋ MLLM์ ๊ฒฝ์ฐ, ์ฑ ์์ ์์๋ค์ ์ธ์ํ๋ ๋ฅ๋ ฅ์ ๋ค์ ๋จ์ด์ง๋๋ฐ์. ์ด ์ฑ๋ฅ์ ๋์ด๊ธฐ ์ํ ์ฐ๊ตฌ์ ๋๋ค. - ์์ด์ฝ ์ธ์: ํ๋ฉด ์์ ์์ด์ฝ์ ์๋ณ - ํ ์คํธ ์ฐพ๊ธฐ: ์ธํฐํ์ด์ค์ ํ ์คํธ ์ธ์ - ์์ ฏ ๋์ด: ํ๋ฉด์์ ์ฌ์ฉ ๊ฐ๋ฅํ ์์ ฏ ๋์ด - ์์ธํ ์ค๋ช : ๋ณด๊ณ ์๋ ํ๋ฉด์ ์ค๋ช - ์ธ์/์ํธ ์์ฉ ๋ํ: ํ๋ฉด์ ๋ํ ์ธ์์ ๋ฐํ์ผ๋ก ๋ํ ํํ์ ์ํธ์์ฉ์ ์ํ ์ ํ์ ์ต๊ทผ ๋ ผ๋ฌธ๋ค์ ์ญ์ ์ธํฐํ์ด์ค, ์ฌ์ฉ์ ๊ฒฝํ์ ์ ํ๋ต๊ฒ, ๋๋ถ๋ถ ์ฌ์ฉ์์ ๋๋ฐ์ด์ค์์ ์ธํฐํ์ด์ค๋ฅผ ์ดํดํ๋ ๊ธฐ๋ฅ์ ํ๋ ์ฐ๊ตฌ๋ค์ธ๋ฐ์. ์ด๋ฌํ ์ฐ๊ตฌ๋ค์ ์ ์ดํด๋ณด๋ฉด ์ ํ์ด ์ค๋นํ๊ณ ์๋ AI๊ฐ ์ด๋ค ๊ฒ์ธ์ง ์ฝ๊ฐ์ ํํธ๋ฅผ ์ ์ ์์ง ์์๊นํฉ๋๋ค. (๊ณต๊ฐ ์ปดํจํ ๋ด์์ ์์ฑ์ผ๋ก ๊ฐ์ฒด๋ค์ ์ธ์ํ๊ณ ๋ค๋ฃจ๊ธฐ, ์ ํ ์์ปท ๊ธฐ๋ฅ์ ์ด์ฉํด ์ฑ ์๋ํํ๊ธฐ ๋ฑ)