[0730]모두에게 전하는 모두연 AI뉴스!

  • Meta, Segment Anything 2 발표

Meta가 SIGGRAPH에서 Segment Anything 2를 발표했습니다! SAM 2는 이미지와 비디오에서 실시간, 프롬프트 기반 객체 분할을 위한 통합 모델입니다. SAM 2는 모든 비디오나 이미지에서 어떤 객체든 분할할 수 있는 뛰어난 제로샷 일반화 성능을 가졌습니다. 이미지 분할 정확도를 검증하는 20여개의 벤치마크에서 이전 모델인 SAM의 능력을 뛰어넘고, 더 나은 비디오 분할 성능을 달성하면서도 상호작용 시간을 3분의 1로 줄였습니다. 추론 속도도 빨라져, 기존의 6FPS보다 6배 빠른 44FPS를 기록합니다. SAM 2는 개발자들이 다양한 실제 사용 사례에 바로 적용될 수 있도록 Apache 2.0 라이선스 하에 공개되었습니다 Meta는 또한 SA-V 데이터셋도 공개했습니다. 이는 기존의 가장 큰 비디오 분할 데이터셋보다 4.5배 더 크고 약 53배 더 많은 주석을 포함하여 컴퓨터 비전 분야의 새로운 연구를 가능하게 합니다


https://ai.meta.com/blog/segment-anything-2/


  • 여러 Foundation model에서 시각 정보를 배우는 Robot policy, Theia

시각적 입력을 행동으로 매핑하는 Vision based robot policy 학습은 분류나 분할과 같은 단일 작업을 넘어서 다양한 시각적 작업에 대한 총체적인 이해를 필요로 합니다. 이에 착안하여, The AI의 연구진은 다양한 시각 작업에 대해 훈련된, CLIP, SAM, DINOv2 등의 여러 기성 비전 기초 모델들의 지식을 증류하는 로봇 학습용 비전 기초 모델인 Theia를 소개합니다. Theia의 풍부한 시각적 표현은 다양한 시각적 지식을 인코딩하여 하위 로봇 학습을 향상시킵니다. 광범위한 실험을 통해 Theia가 더 적은 훈련 데이터와 더 작은 모델 크기로 교사 모델들과 기존 로봇 학습 모델들을 능가함을 보여줍니다. 또한, 우리는 사전 훈련된 시각적 표현의 품질을 정량화하고, 특징 norm 분포의 엔트로피가 높을수록 로봇 학습 성능이 향상된다는 가설을 제시합니다.


https://github.com/bdaiinstitute/theia


[마감임박!] AI 개발자 과정의 압도적인 수준 차이! 입문자에서 전공자까지! 아이펠 9기  : https://bit.ly/4ePP8iK

Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

AI at Meta

Introducing SAM 2: The next generation of Meta Segment Anything Model for videos and images

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2024년 7월 30일 오전 6:50

댓글 0