Community

카카오브레인이 입력된 영어 텍스트를 이해하고 대응되는 이미지를 만들어내는 새 초거대 인공지능(AI) 모델 'RQ-Transformer'를 오픈소스 소프트웨어로 공개했다. RQ-Transformer를

카카오브레인이 입력된 영어 텍스트를 이해하고 대응되는 이미지를 만들어내는 새 초거대 인공지능(AI) 모델 'RQ-Transformer'를 오픈소스 소프트웨어로 공개했다. RQ-Transformer를 만든 연구자들이 쓴 논문이 오는 6월 열리는 글로벌 컴퓨터비전 학회 CVPR 2022에서 발표된다. 카카오브레인은 지난 2021년 12월 공개한 초거대 멀티모달 '민달리(minDALL-E)'의 업그레이드 버전인 이미지 생성 모델로 RQ-Transformer를 깃허브(GitHub)에 공개했다고 19일 밝혔다. 깃허브는 7300만여명의 개발자와 2억개의 소스코드 저장소를 보유한 오픈소스 커뮤니티 겸 소프트웨어 개발용 웹호스팅 서비스다. RQ-Transformer는 텍스트를 입력받아 이미지를 출력한다. 텍스트·이미지 3000만쌍을 학습했다. 카카오브레인이 독자적으로 개발한 기술에 기반해 39억개의 매개변수를 다루는 AI 모델로 만들어졌다. 공개된 이미지 생성 모델 가운데 국내 최대 규모다. RQ-Transformer의 크기는 기존 카카오브레인 초거대 AI인 민달리의 3배, 이미지 생성 속도와 학습 데이터셋 크기는 2배 수준이다. RQ-Transformer는 예를 들어 '사막에 있는 에펠탑(the Eiffel Tower in the desert)'과 같은, 처음 보는 영어 텍스트 조합을 이해하고 그에 대응하는 이미지를 생성한다. 텍스트 조건에 기존 기술과 달리 압축으로 인한 화질 손실이 적은 이미지를 만들어낸다. 기존 이미지 생성 모델보다 더 적은 계산 비용으로 더 빠르게 이미지를 생성할 수 있다. * Github: https://github.com/kakaobrain/rq-vae-transformer

알림

알림이 없습니다