[230925] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

모두의연구소는 함께 공유하고 성장하는 국내 최대 AI 커뮤니티입니다. 그럼, 오늘의 AI 뉴스 시작해 볼게요! 1️⃣ [DreamLLM: 멀티모달 이해와 생성을 위한 혁신적 학습 프레임워크](https://huggingface.co/papers/2309.11499) DreamLLM은 멀티모달 이해와 생성 간의 시너지를 활용한 다용도 멀티모달 대규모 언어 모델(MLLM)을 위한 학습 프레임워크입니다. 이 모델은 원시 멀티모달 공간에서 직접 샘플링을 하여 언어와 이미지 생성에 중점을 둡니다, 외부 특징 추출기의 한계를 극복합니다. 또한, DreamLLM은 텍스트와 이미지의 비정형 레이아웃을 모두 모델링하는 원시 인터리브 문서 생성을 지원합니다, 이로써 다양한 멀티모달 분포를 효과적으로 학습합니다. DreamLLM은 이런 방식으로 자유 형식의 인터리브 콘텐츠 생성이 가능한 최초의 MLLM이 되었으며, 실험 결과 그 우수한 성능을 입증하였습니다. 2️⃣ [FreeU: 확산 U-Net 아키텍처의 잠재력 발굴과 생성 품질 향상](https://huggingface.co/papers/2309.11497) 이번 논문에서는 확산 U-Net 아키텍처의 미개발 잠재력을 탐구하여 생성 품질을 향상시키는 방법을 제시합니다. U-Net의 주요 기여는 노이즈 제거에 있으며, 스킵 연결은 네트워크가 백본 의미를 약하게 만듭니다. 이를 바탕으로 "FreeU"라는 방법을 제안하여 스킵 연결과 백본의 강점을 전략적으로 활용합니다. FreeU의 적용 결과는 이미지 및 비디오 생성 작업에서 기존 확산 모델에 쉽게 통합되어 생성 품질을 크게 개선할 수 있음을 보여줍니다. 이를 위해서는 추론 중에 두 가지 스케일링 계수를 조정하기만 하면 됩니다. 3️⃣ [Kosmos-2.5: 텍스트 집약적 이미지를 위한 멀티모달 리터러티브 모델 소개](https://huggingface.co/papers/2309.11419) Kosmos-2.5는 텍스트 집약적 이미지의 기계 판독을 위한 멀티모달 리터러티브 모델입니다. 이 모델은 이미지 내의 텍스트 블록에 공간 좌표를 할당하며, 텍스트의 스타일과 구조를 마크다운 형식으로 캡처하는 능력을 가집니다. 이 기능은 Transformer 아키텍처, 작업별 프롬프트, 유연한 텍스트 표현을 사용하여 달성되었습니다. Kosmos-2.5는 문서 수준 텍스트 인식과 이미지에서의 마크다운 텍스트 생성에서 우수한 성능을 보이며, 다양한 텍스트 집약적 이미지 이해 작업에 적용될 수 있습니다. 이 모델은 텍스트가 풍부한 이미지의 실제 애플리케이션에도 적용 가능하며, 향후 멀티모달 대규모 언어 모델 확장의 기반이 될 것입니다. — 🥇 K-디지털 트레이닝 훈련기관 최초! '대통령 표창' 수상한 모두의연구소의 AI학교 아이펠 입학하기 → https://bit.ly/3YDkLV4

[230925] 모두의연구소가 전하는 “모두를 위한 AI 뉴스”

알림