Stable Hands - Hands comparison in 23 models : r/StableDiffusion
reddit.com
난 처음에 AI 모델 학습 데이터에 다른 이미지(예: 얼굴, 전신)와 비교해 손 이미지가 부족한 것이 원인일 거라고 추측했다.
그러나 보다 흥미로운 가설이 있다. 디퓨전 프로세스는 이미지를 가우스 잡음이 2차원 형태로 모인 집합으로 환원한 뒤 재생성하는 방식이다. 다시 말해, 3차원에 대한 이해와 모델링을 포함하지 않는다.
사실, 원거리에서 보는 얼굴이나 전신은 상대적으로 단순한 위상 구조를 가지고 있다. 그것은 매끄러운 형태로, 2차원에서도 잘 표현될 수 있다. 반면, 다섯 손가락이 움직이는 손은 복잡한 위상 구조를 지니기에 3차원 정보 없이 정확히 그리는 것은 어려울 수 있다.
이 가설을 검증하기 위해, 대부분 머리 속에 쉽게 그려볼 수 있는 뮈비우스 띠 두 개가 고리처럼 연결된 형태(어릴 적 종이와 가위로 직접 만들어본 사람도 많을텐데...) 현재 기준 SOTA인 DALL·E3(정확히는 BIC)에게 그리게 했다. 이것은 복잡한 위상 구조를 갖으며, 그래서인지 아직까지 만족스러운 결과를 얻지 못했다. 뫼비우스 띠처럼 보이는 형태는 많았지만, 자세히 보면 환각에 불과했다. (만약 성공한 분이 계시다면 공유 부탁드립니다!)
더 나아가 비약하자면, 나는 이러한 결과가 얀 르쿤이 주장하는 LLM의 한계(또는 생성 모델의 상식 부족 문제)와도 맞닿아 있다고 생각한다.
참고:
Stable Hands - Hands Comparison in 23 Models
다음 내용이 궁금하다면?
이미 회원이신가요?
2023년 10월 9일 오전 8:00
두 가지 목표가 있다. 어떤 목표가 학습 동기를 높인다고 생각하는가?
... 더 보기온
... 더 보기영
... 더 보기