딥마인드가 로봇 작업에서 자연어를 사용해 로봇을 제어할 수 있는 vision-language-action (VLA) 모델로 Robotic Transformer 2 (RT-2)를 소개했습니다. 구
딥마인드가 로봇 작업에서 자연어를 사용해 로봇을 제어할 수 있는 vision-language-action (VLA) 모델로 Robotic Transformer 2 (RT-2)를 소개했습니다. 구글에서 올해 3월쯤 ViT 22B+PaLM 540B로 학습시킨 562B 크기의 PaLM-E 라는 멀티모달 모델을 소개했었고, 올해 5월쯤엔 ViT 22B+UL2 32B 를 합친 55B 크기의 PaLI-X 멀티모달 모델도 소개했었는데요. RT-2는 이 두 모델을 기반으로 각각의 장점을 융합시킨 모델인것 같네요. 멀티모달 모델의 최종 종착점은 결국 로봇인 것 같습니다. 기반이 되는 PaLM-E 모델과 PaLI-X 모델에 대해서도 리서치한 걸 한번 정리해보겠습니다^^ paper: https://robotics-transformer2.github.io/assets/rt2.pdf blog: https://www.deepmind.com/blog/rt-2-new-model-translates-vision-and-language-into-action