아마존 세이지메이커와 생성 AI를 통한 가상 패션 스타일링

AWS ML 블로그에 올라온 글(https://aws.amazon.com/blogs/machine-learning/virtual-fashion-styling-with-generative-ai-using-amazon-sagemaker/) 재미있네요. ✔️ 전체적인 작업 흐름은 다음과 같습니다. ① 패션 아이템 이미지 셋으로 스테이블 디퓨전 인페인팅 모델을 미세 조정한다. ② 미세 조정한 모델을 배포한다. ③ CLIPSeg 모델에 변경할 대상인 패션 아이템 텍스트(예: 스커트)를 입력해서 시맨틱 세그멘테이션을 한다. ④ 결과로 나온 마스크 이미지와 텍스트 프롬프트(예: 여행용 롱 스커트를 입고 있는 슈퍼모델, 포토리얼리스틱)를 입력하여 원하는 스타일링 이미지를 생성한다. 결국 핵심 아이디어는 CLIPSeg 모델로 바꾸고 싶은 패션 아이템 마스크를 구하고 그걸 스테이블 디퓨전 인페인팅 모델에 텍스트 프롬프트과 함께 입력해서 원하는 패션 아이템으로 스타일링하는 거죠. ✔️ CLIPSeg(https://arxiv.org/abs/2112.10003)은 텍스트 또는 이미지 프롬프트 기반의 시맨틱 세그멘테이션 모델, 말 그대로 세그멘테이션을 위한 CLIP 모델입니다. 사전 훈련한 CLIPSeg 모델(https://github.com/timojl/clipseg)에 패션 아이템 텍스트로 마스크 이미지를 생성합니다. p3.2xlarge 인스턴스 정도가 필요합니다. ✔️ 패션 아이템 이미지와 텍스트 프롬프트 셋으로 스테이블 디퓨전 인페인팅 모델을 미세 조정합니다. 이미지 장수가 적은데 드림부스(https://github.com/XavierXiao/Dreambooth-Stable-Diffusion)의 클래스 별 사전 보존 손실을 사용하여 과적합 문제을 해결합니다. 768 x 768 해상도를 위해서는 22GB 이상 VRAM이 필요합니다. 단일 인스턴스로는 어렵고 허깅페이스 액셀러레이트 분산 구성으로 미세 조정을 실행해야 합니다. (이때, 슬라이스 버전의 어텐션을 추가 적용하여 메모리 절약이 가능합니다.) ✔️ 세이지메이커의 HuggingfaceModel 클래스를 사용하여 미세 조정한 모델을 배포합니다. g4dn.xlarge 인스턴스 정도가 필요합니다. 그다음은 가이던스 스케일 파라미터를 조정해 가면서 원하는 대로 실시간 이미지 생성을 하면 됩니다!

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 12일 오전 2:31

댓글 0