ODISE라는 뛰어난 Panoptic Segmentation 모델 공개

Nvidia에서 Panoptic Segmentation task에 사용할 수 있는 ODISE 라는 모델을 공개했습니다. 흥미로운 점은 stable diffusion 같은 text-to-image diffusion model 을 활용해서 unseen class에 대해서도 할 수 있도록 했다는 점입니다. 그리고 이게 segmentation 전용 모델들의 점수를 뛰어넘어서 SOTA를 달성한 것도 인상적입니다. 해당 연구를 살펴보면 CLIP이나 Stable Diffusion이 얼마나 많은 기여를 했는지 다시한번 느낄 수가 있습니다. HF에 공개된 데모를 해 보니 틀리게 나오는 것들도 좀 있지만 성능이 꽤 인상적입니다. 아직 코드와 모델은 공개되진 않았지만, Nvidia의 경우 오픈소스로 공개를 잘 하는 편이기 때문에 곧 공개될 것으로 보입니다. 예전 StyleGAN 계열은 non-commercial license였기 때문에 그럴 가능성도 있습니다만 base model 들을 비슷하게 활용한 다른 완전한 오픈소스 모델도 많이 나올 것 같습니다. Foundation model 들이 정말 많은 부분에서 기여를 해 주는 것 같습니다. 앞으로는 기존에 거북이처럼 느린 속도로 개선되던 부분들이 크게 나아진 모델들이 쏟아져 나올 것 같습니다. 물론 아직까지 비싼 리소스의 필요성과 느린 속도는 해결해야 될 문제이지만, 앞으로 더 많은 분야에서 ML 기술이 기여를 할 수 있게 될 것 같습니다.

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

Jerryxu

Open-Vocabulary Panoptic Segmentation with Text-to-Image Diffusion Models

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 13일 오전 12:56