[230901] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”
모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다🌱. 그럼, 오늘의 AI 뉴스 시작해 볼게요! 🙂 1️⃣ 고대 화석에서 동물까지: 제로샷 이미지 간 번역을 위한 텍스트 안내 잠재 확산 모델 탐구 자연어를 이용해 큰 도메인 간의 이미지 간 번역(I2I)를 개선하면 다양한 분야에서 활용될 수 있습니다. 오늘 소개해드리는 연구에 따르면 Skull2Animal이라는 새로운 작업을 통해 뼈를 살아있는 동물 이미지로 변환하는 방법을 탐색할 수 있다고 하는데요! 이 과정에서 전통적인 비지도 생성적 적대 신경망(GAN) 방법으로는 큰 도메인 간격의 번역이 어렵다는 것을 확인되었다고 합니다. 텍스트 안내 확산과 이미지 편집 기반의 Revive-2I 모델을 소개하여 제로샷 I2I를 수행했습니다. 분석 결과, 큰 도메인 간격을 해소하기 위해 대상 도메인에 대한 안내 및 텍스트 프롬프트의 사용이 필요하며, 프롬프트가 가장 확장 가능한 정보 제공 방법임을 확인했다고 합니다! 자세한 내용은 본문 링크에서 확인해보세요! ▶️ https://huggingface.co/papers/2308.07316 2️⃣ SoTaNa: 오픈소스 소프트웨어 개발 어시스턴트의 혁신 소프트웨어 개발은 현대 사회의 혁신과 효율성 증진에 필수적이며, 효과적인 소프트웨어 개발 어시스턴트의 필요성이 증가하고 있습니다. ChatGPT 같은 대규모 언어 모델들은 제한된 접근성을 가진 반면, 오픈소스 모델인 LLaMA도 의도 이해에 어려움이 있는데요. 오늘 두 번째로 소개해드리는 연구에서는 새로운 오픈소스 소프트웨어 개발 어시스턴트인 SoTaNa를 소개하며, 이는 ChatGPT를 기반으로 하여 LLaMA 모델을 향상시키는 방식으로 개발되었다고 합니다. 스택 오버플로에 대한 효율적인 답변 제공, 코드 요약 및 생성 기능 등을 포함하며, 단일 GPU에서도 실행 가능하여 연구자들의 접근성 확대에 대한 기대를 가질 수 있는데요. 이 오픈소스는 깃허브에 올라와 있으니 아래 링크를 참고해주세요! ▶️ https://github.com/DeepSoftwareAnalytics/SoTaNa ▶️ https://huggingface.co/papers/2308.13416 3️⃣ IP-Adapter: 효율적인 이미지 프롬프트를 위한 새로운 메커니즘 대규모 텍스트-이미지 확산 모델로 인해 고화질 이미지 생성이 가능해졌으나, 아직 텍스트 프롬프트만을 사용하는 접근은 복잡합니다. 이를 대체할 이미지 프롬프트 개념이 등장했지만 아직 많은 자원을 소모합니다. 이와 관련해 효율적으로 활용하는 IP-Adapter를 소개하는 논문 소식을 가져왔습니다. IP-Adapter는 파라미터가 22M에 불과하며, 텍스트와 이미지 특징의 교차 주의 레이어를 분리하는 핵심 메커니즘을 가지고 있는데요. 이 어댑터는 높은 성능을 보이며, 다양한 모델과 제어 도구와의 일반화가 가능하다고 하니 아래 링크에서 자세한 내용을 확인하실 수 있습니다! ▶️ https://ip-adapter.github.io/ ▶️ https://huggingface.co/papers/2308.06721 📍AI학교 아이펠 7기 사전 등록 중! → https://bit.ly/3YDkLV4