🩵모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다.
그럼, 오늘의 AI 뉴스 시작해 볼게요! :)
1️⃣ [CRATE 화이트박스 트랜스포머: 지도 학습에서의 세분화 특성 강화](https://huggingface.co/papers/2308.16271)
최근 비전 작업을 위한 트랜스포머 모델이 다양한 애플리케이션에서 효과적임이 확인되었습니다. 자가 지도 방법인 DINO를 사용한 비전 트랜스포머(ViT)는 세분화 특성을 보였지만, 지도 분류 작업을 통한 ViT에서는 그렇지 않았습니다. 이 연구는 트랜스포머에서의 세분화가 자기 지도 학습만의 ㅑ결과인지, 아니면 다른 조건에서도 동일한 결과를 얻을 수 있는지를 검증합니다. 실험 결과, CRATE라는 화이트박스 트랜스포머 아키텍처를 사용하면 세분화 특성이 지도 학습 최소 조건에서도 나타난다는 것을 확인하였습니다. 이 아키텍처의 설계된 수학적 기능이 세분화된 특성을 강화하는 것으로 파악되었습니다. 이 연구는 효과적이면서도 해석 가능한 화이트박스 모델 설계 방향을 제시합니다.
코드는 아래에서 확인할 수 있습니다.
[GitHub - Ma-Lab-Berkeley/CRATE: Code for CRATE (Coding RAte reduction TransformEr).](https://github.com/Ma-Lab-Berkeley/CRATE)
2️⃣ [ASD 파이프라인: 모든 크기의 이미지를 효과적으로 생성하는 텍스트-이미지 합성 모델](https://huggingface.co/papers/2308.16582)
텍스트-이미지 합성을 위한 생성 모델인 스테이블 디퓨전은 이미지의 크기와 해상도로 인한 구도 문제에 직면합니다. 이 문제는 모델이 한 크기의 이미지와 텍스트만 학습하기 때문에 발생하며, 무제한 크기의 이미지 학습은 큰 계산 비용 때문에 어렵습니다. 이 문제점을 해결하기 위해 유니티는 모든 크기의 이미지를 효과적으로 생성하면서 GPU 리소스 사용을 최소화하는 2단계 파이프라인 ASD(Any-Size-Diffusion)를 도입했습니다. 초기 단계인 ARAD를 통해 다양한 이미지 크기에 맞게 구도를 조절하고, 다음 단계인 FSTD 기술로 원하는 크기의 이미지를 빠르게 생성합니다. ASD는 LAION-COCO와 MM-CelebA-HQ 벤치마크에서 기존 방법보다 2배 빠른 추론 시간으로 잘 구조화된 이미지를 생성함을 입증하였습니다.
3️⃣ [GNFactor: 3D 복셀 기반의 시각적 행동 복제 에이전트로 로봇 조작 최적화](https://huggingface.co/papers/2308.16891)
실제 환경에서 다양한 조작 작업을 수행하는 로봇을 개발하기 위해선 로봇이 장면의 3D 구조와 의미를 깊게 이해해야 합니다. 이 연구에서는 멀티태스크 로봇 조작을 위한 GNFactor라는 시각적 행동 복제 에이전트를 제안합니다. 이 에이전트는 3D 복셀 표현을 기반으로 일반화 가능한 신경장과 인식자 변환기를 최적화합니다. 이 모델은 시맨틱 정보를 깊은 3D 복셀로 추출하기 위해 비전 언어 모델을 활용합니다. 실험 결과, GNFactor는 보이는 및 보이지 않는 작업 모두에서 현재의 최신 방법보다 뛰어난 성능을 보여줍니다.
자세한 내용은 아래에서 확인할 수 있습니다.
https://yanjieze.com/GNFactor/
📍AI학교 아이펠 7기 무료 입학하기! → https://bit.ly/3YDkLV4