아마존 세이지메이커와 생성 AI를 통한 가상 패션 스타일링

AWS ML 블로그에 올라온 글(https://aws.amazon.com/blogs/machine-learning/virtual-fashion-styling-with-generative-ai-using-amazon-sagemaker/) 재미있네요. ✔️ 전체적인 작업 흐름은 다음과 같습니다. ① 패션 아이템 이미지 셋으로 스테이블 디퓨전 인페인팅 모델을 미세 조정한다. ② 미세 조정한 모델을 배포한다. ③ CLIPSeg 모델에 변경할 대상인 패션 아이템 텍스트(예: 스커트)를 입력해서 시맨틱 세그멘테이션을 한다. ④ 결과로 나온 마스크 이미지와 텍스트 프롬프트(예: 여행용 롱 스커트를 입고 있는 슈퍼모델, 포토리얼리스틱)를 입력하여 원하는 스타일링 이미지를 생성한다. 결국 핵심 아이디어는 CLIPSeg 모델로 바꾸고 싶은 패션 아이템 마스크를 구하고 그걸 스테이블 디퓨전 인페인팅 모델에 텍스트 프롬프트과 함께 입력해서 원하는 패션 아이템으로 스타일링하는 거죠. ✔️ CLIPSeg(https://arxiv.org/abs/2112.10003)은 텍스트 또는 이미지 프롬프트 기반의 시맨틱 세그멘테이션 모델, 말 그대로 세그멘테이션을 위한 CLIP 모델입니다. 사전 훈련한 CLIPSeg 모델(https://github.com/timojl/clipseg)에 패션 아이템 텍스트로 마스크 이미지를 생성합니다. p3.2xlarge 인스턴스 정도가 필요합니다. ✔️ 패션 아이템 이미지와 텍스트 프롬프트 셋으로 스테이블 디퓨전 인페인팅 모델을 미세 조정합니다. 이미지 장수가 적은데 드림부스(https://github.com/XavierXiao/Dreambooth-Stable-Diffusion)의 클래스 별 사전 보존 손실을 사용하여 과적합 문제을 해결합니다. 768 x 768 해상도를 위해서는 22GB 이상 VRAM이 필요합니다. 단일 인스턴스로는 어렵고 허깅페이스 액셀러레이트 분산 구성으로 미세 조정을 실행해야 합니다. (이때, 슬라이스 버전의 어텐션을 추가 적용하여 메모리 절약이 가능합니다.) ✔️ 세이지메이커의 HuggingfaceModel 클래스를 사용하여 미세 조정한 모델을 배포합니다. g4dn.xlarge 인스턴스 정도가 필요합니다. 그다음은 가이던스 스케일 파라미터를 조정해 가면서 원하는 대로 실시간 이미지 생성을 하면 됩니다!

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 3월 12일 오전 2:31

댓글 0

    함께 읽은 게시물

    < 스포티파이와 멜론, 같은 음악인데 왜 경험은 다를까? >

    1. 엔터테인먼트 프로덕트의 본질은 콘텐츠다. 사용자는 콘텐츠를 소비하며 감정을 느낀다. 재미, 감동, 공포, 희열. 인간의 다양한 감정이 콘텐츠를 통해 꺼내진다.

    ... 더 보기



    직장인으로서 10년 정도 일하게 되면 피할 수 없는 순간이 바로 조직에서 리더의 역할을 받게 되는 인사발령이다. 팀원이었을 때는 내게 주어진 업무를 내가 가진 능력과 주변 동료들의 도움으로 해결하고, 그에 합당한 평가와 보상을 기다리며, 나쁘지 않는 리워드와 내 위치에 안도하며 또 새해를 맞이하고 하루하루를 버텨나가는 과정에 큰 어려움이 없다.

    ... 더 보기

     • 

    저장 3 • 조회 272


    👋 LLM 활용에 도움이 되는 가이드 모음

    ✅️Prompting Guide 101 by Google : https://lnkd.in/d8UwPWeN

    ... 더 보기

     • 

    저장 7 • 조회 487


    이력서에 쓰는 경험

    

    ... 더 보기