[230828] 모두의연구소가 전하는 "모두를 위한 AI 뉴스"
모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다🌱. 그럼, 오늘의 AI 뉴스 시작해 볼게요! 🙂 1️⃣ BLIVA: 텍스트 기반 이미지 해석의 혁신적 접근법 비전 언어 모델(VLM)은 개방형 시각적 질의응답(VQA)에 있어 큰 발전을 이룩했지만, 텍스트가 포함된 이미지의 경우 제대로 작동하지 않았습니다. 특히 기존에 있던 비전 언어모델은 텍스트가 풍부한 장면을 완전히 인식하지 못합니다. 논문에서는 이 문제를 해결하기 위해 BLIVA라는 새로운 모델을 소개합니다. 이 모델은 기존 접근법과 다르게 인코딩된 패치 임베딩을 직접 투영하는 방식을 채택해서 복잡한 세부 정보도 포착할 수 있게 합니다. 실험을 진행했을 때 BLIVA는 기존의 InstructBLIP 모델보다 성능이 크게 향상되었으며, 텍스트가 포함되어 있지 않은 이미지를 해석하는 능력도 입증되었습니다! → https://huggingface.co/papers/2308.09936 2️⃣ StableVideo: 시간적 종속성을 활용한 일관된 비디오 편집 프레임워크 Diffusion 모델은 이미지와 동영상 생성에 있어 뛰어나지만, 동영상 내 오브젝트의 일관성 있게 편집이 어렵습니다. 논문에서 소개한 StableVideo는 시간에 따른 텍스트 기반 Diffusion 모델과 프레임 간 정보를 전파하는 메커니즘을 도입했습니다. 이 방법을 도입했을 때 StableVideo는 조금 더 일관성 있게 비디로 편집이 가능해졌습니다. 실제 실험에서도 StableVideo은 다른 SOTA 모델에 비해 더 우수한 편집 결과를 보여주었습니다! → https://huggingface.co/papers/2308.09592 3️⃣ AutoGPTQ: 대규모 언어 모델의 접근성 향상을 위한 비트 조절 대규모 언어 모델은 텍스트 이해와 생성에 뛰어난 능력을 가질 수 있지만 비싼 GPU와 같은 하드웨어 요구 사항이 증가하고 있습니다. 이렇다보니 오픈소스 모델이 나와도 실제 로컬에서 돌리기 쉽지 않습니다. 허깅 페이스는 모든 사용자가 이러한 모델에 쉽게 접근할 수 있게 하기 위해 AutoGPTQ 라이브러리를 Transformers에 통합하였고, 이를 통해 사용자는 GPTQ 알고리즘으로 모델의 정밀도를 8, 4, 3, 2비트로 조정할 수 있습니다. 특히, 4비트 양자화는 정확도 저하가 적으며 추론 속도도 fp16 기준과 유사하다. 이 기능은 Nvidia와 AMD GPU에서 모두 사용 가능하며 현재 이준재님께서 CPU도 도전하고 있습니다! → https://huggingface.co/blog/gptq-integration 📍단 이틀, 아이펠 6기 앵콜 모집 중! AI학교 아이펠 지금 바로 지원하기 → https://bit.ly/3YDkLV4