Stability AI 에서 신규모델인 StableDiffusion 3.5를 발표했습니다.
최근 Flux 발표 후 경쟁적으로 모델을 내고 있는 모습이네요.
간단히 테스트를 하였는데요, 실사 배트맨과 애니메이션의 엘사를 혼합하여 생성하도록 하였습니다.
초기 발표된 모델들은 2인 이상의 인물 배치에 다른 공정이 상당히 많이 필요했는데 특별한 설정 없이도 한번에 이미지를 생성 해 주었습니다.
SD 3.5와 FLUX 모두 퀄리티에 해당하는 프롬프트(best quality, 4k) 가 필요하지 않았고, 네거티브 프롬프트 없이도 안정적으로 이미지를 생성 해 주었습니다.
SD 3.5의 놀라운점은 실사 사진과 3D 렌더이미지 혼합을 성공적으로 해냈다는 점인데요. 프롬프트 수행의 정확도가 굉장히 올라간게 느껴집니다. 하지만 여전히 인체 정확도 부분에서는 문제가 있었습니다. 손가락 타율이 높지 않았고 후속 Lora가 필요해 보입니다..
FLUX는 실사와 관련된 프롬프트를 무시하고 전체적으로 통일감있는 이미지 생성 해 줬습니다. 현실에 존재하기 어려운 이미지를 피하는 듯. 3가지 이상의 지시를 했을 때 셀카 동작을 빼먹는 현상도 보였구요. 또한 여러 프롬프트를 테스트 해 봤을때 Don't, Except 등의 부정적 서술을 했을땐 거의 적용되지 않는 경향이 있었습니다.
생성 속도는 비슷한 수준이었는데요 근소하게 SD 3.5가 앞섰습니다. 20스텝에서 3~4초 차이.
둘 모두 정제된 이미지로 학습되어 퀄리티 프롬프트는 전혀 사용하지 않게 되었다는게 인상적입니다.
인물을 뽑는다면 크게 신경쓰지 않아도 되는 FLUX가 여전히 괜찮은 것 같습니다. 초현실적인 이미지가 놀랍긴 하지만 거의 사용할 일은 없으니까요. SD는 여러 오브젝트가 들어가는 장면을 제어할 때 써보려고 합니다.
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 10월 24일 오전 3:52