디퓨전 프로세스는 왜 손을 정확하게 그리지 못할까?

난 처음에 AI 모델 학습 데이터에 다른 이미지(예: 얼굴, 전신)와 비교해 손 이미지가 부족한 것이 원인일 거라고 추측했다.


그러나 보다 흥미로운 가설이 있다. 디퓨전 프로세스는 이미지를 가우스 잡음이 2차원 형태로 모인 집합으로 환원한 뒤 재생성하는 방식이다. 다시 말해, 3차원에 대한 이해와 모델링을 포함하지 않는다.


사실, 원거리에서 보는 얼굴이나 전신은 상대적으로 단순한 위상 구조를 가지고 있다. 그것은 매끄러운 형태로, 2차원에서도 잘 표현될 수 있다. 반면, 다섯 손가락이 움직이는 손은 복잡한 위상 구조를 지니기에 3차원 정보 없이 정확히 그리는 것은 어려울 수 있다.


이 가설을 검증하기 위해, 대부분 머리 속에 쉽게 그려볼 수 있는 뮈비우스 띠 두 개가 고리처럼 연결된 형태(어릴 적 종이와 가위로 직접 만들어본 사람도 많을텐데...) 현재 기준 SOTA인 DALL·E3(정확히는 BIC)에게 그리게 했다. 이것은 복잡한 위상 구조를 갖으며, 그래서인지 아직까지 만족스러운 결과를 얻지 못했다. 뫼비우스 띠처럼 보이는 형태는 많았지만, 자세히 보면 환각에 불과했다. (만약 성공한 분이 계시다면 공유 부탁드립니다!)


더 나아가 비약하자면, 나는 이러한 결과가 얀 르쿤이 주장하는 LLM의 한계(또는 생성 모델의 상식 부족 문제)와도 맞닿아 있다고 생각한다.


참고:
Stable Hands - Hands Comparison in 23 Models

Stable Hands - Hands comparison in 23 models : r/StableDiffusion

reddit.com

Stable Hands - Hands comparison in 23 models : r/StableDiffusion

다음 내용이 궁금하다면?

또는

이미 회원이신가요?

2023년 10월 9일 오전 8:00

댓글 0

    함께 읽은 게시물

    대기업 전직 임원이 골프장 캐디가 된 이유

    ... 더 보기

    두 가지 목표가 있다. 어떤 목표가 학습 동기를 높인다고 생각하는가?

    ... 더 보기

    쉽고 재밌기만 한 교육은 독이다

    ㅍㅍㅅㅅ

    쉽고 재밌기만 한 교육은 독이다

    < 초동 100만 장, 그런데 팬은 어디 있죠? - 엔터 테크와 데이터로

    1

    ... 더 보기

    🍚한촌설렁탕의 파격적인 도전은 성공할 수 있을까요?

    ... 더 보기

    외식 온라인몰의 비밀: 한촌설렁탕엔 있고 더본코리아엔 없는 것

    더스쿠프

    외식 온라인몰의 비밀: 한촌설렁탕엔 있고 더본코리아엔 없는 것

     • 

    저장 1 • 조회 285


    ⟪디자인의 역할은 프로세스에서 낭비를 줄이고 생산성을 개선하는 것⟫

    ... 더 보기

    공공디자인, 중앙정부를 넘어 - 영국 디자인카운슬, 2025

    www.designdb.com

    공공디자인, 중앙정부를 넘어 - 영국 디자인카운슬, 2025

    경험담)섣불리 판단하면 안되는 이유?


    주말에 한식 뷔페에서 식사하던 중,

    ... 더 보기