Jonas Kim

데이터 과학자, ML 엔지니어

디퓨전 프로세스는 왜 손을 정확하게 그리지 못할까?

난 처음에 AI 모델 학습 데이터에 다른 이미지(예: 얼굴, 전신)와 비교해 손 이미지가 부족한 것이 원인일 거라고 추측했다.

그러나 보다 흥미로운 가설이 있다. 디퓨전 프로세스는 이미지를 가우스 잡음이 2차원 형태로 모인 집합으로 환원한 뒤 재생성하는 방식이다. 다시 말해, 3차원에 대한 이해와 모델링을 포함하지 않는다.

사실, 원거리에서 보는 얼굴이나 전신은 상대적으로 단순한 위상 구조를 가지고 있다. 그것은 매끄러운 형태로, 2차원에서도 잘 표현될 수 있다. 반면, 다섯 손가락이 움직이는 손은 복잡한 위상 구조를 지니기에 3차원 정보 없이 정확히 그리는 것은 어려울 수 있다.

이 가설을 검증하기 위해, 대부분 머리 속에 쉽게 그려볼 수 있는 뮈비우스 띠 두 개가 고리처럼 연결된 형태(어릴 적 종이와 가위로 직접 만들어본 사람도 많을텐데...) 현재 기준 SOTA인 DALL·E3(정확히는 BIC)에게 그리게 했다. 이것은 복잡한 위상 구조를 갖으며, 그래서인지 아직까지 만족스러운 결과를 얻지 못했다. 뫼비우스 띠처럼 보이는 형태는 많았지만, 자세히 보면 환각에 불과했다. (만약 성공한 분이 계시다면 공유 부탁드립니다!)

더 나아가 비약하자면, 나는 이러한 결과가 얀 르쿤이 주장하는 LLM의 한계(또는 생성 모델의 상식 부족 문제)와도 맞닿아 있다고 생각한다.

참고:
Stable Hands - Hands Comparison in 23 Models

Stable Hands - Hands comparison in 23 models : r/StableDiffusion

reddit.com

다음 내용이 궁금하다면?

이미 회원이신가요?

2023년 10월 9일 오전 8:00

저장 14 • 조회 2,279

함께 읽은 게시물

장홍석

스페이스오디티 부대표/CPO

9시간 전

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

•

댓글 1 • 저장 3 • 조회 250

김인제

LINE OpenChat backend engineer

2일 전

오픈소스 기여모임 9기 참여자를 모집합니다!

- ✅ 9기 신청하기: https://medium.com/opensource-contributors/aadfa4c7e59e
- 🔥이전기수 8기 결과&후기: https://medium.com/opensource-contributors/a87ad7b4d7ff

저장 6 • 조회 838

석민

커리어 코치

하루 전

가치를 얻기 위한 투자

저장 2 • 조회 473

Annette MJ Kim

사람과 조직의 동반 성장을 위해 일해요:D

4일 전

회사가 직원들에게 요구하는 것 중 하나가 ‘애사심’이다. 애사심은 분명히 숭고한 가치이지만, 그렇다고 강제로 요구한다고 생기는 것은 아니다. 직원들이 먼저 회사에 자부심을 갖도록 환경을 조성해야 자연스럽게 애사심도 고취될 수 있다.

직원들 자부심 챙기면 애사심은 절로 나온다

서울경제

저장 4 • 조회 554

비슷한 게시물

골빈해커 Chief Maker

Finally, it’s the right time to make something good using generative intelligence.

골빈해커 Chief Maker

AI가 코드를 학습하고 생성하는 것에 대해 개발자들이 저작권 문제를 크게 개의치 않고 즐거워할 수 있는 이유는, 생성된 결과물이 완결성을 가지지 않기 때문이다.

pliossun 디자이너

2024년 성공하는 디자이너

안형우 17년차 웹 개발자(2009~)

인공지능에 대해 가장 인상깊게 들은 말

한기용 UpZen 창업자 대표 & 산호세 주립대 교수

해커톤의 장점: 시작이 반이다

골빈해커 Chief Maker

📝 Whiteboard-of-Thought 프롬프팅

주간 인기 TOP 10

권태관 NAVER 소프트웨어 엔지니어

퇴사 부검 : 네이버를 떠나며

이양일 NaverCloud 백엔드 개발자

요구사항 변화에 따른 프로젝트 구조 확장 ⛏

K리그 프로그래머 커피한잔 개발자

컨텍스트 스위칭 - AI 코딩 부작용

유용우(요우) NAVER 백엔드 개발자

"배포했으면 스펙이지"

장홍석 스페이스오디티 부대표/CPO

< 당신이 바쁜데도 성과가 없는 이유 >

석민 커리어 코치

살아있네

Annette MJ Kim 사람과 조직의 동반 성장을 위해 일해요:D

퇴근길 지하철에서 중년 사내와 20대 후반의 한 젊은이가 필자의

레드버스백맨 리서처 앤 라이터

《기다림이 허락되지 않는 시대》

달레 Apollo GraphQL Software Engineer

👦🐍 7살 아이에게 파이썬을 가르칠 수 있을까요?

Arawn Park Senior Engineer & Engineering Lead

전문가의 태도를 배울 수 있는 강의

디퓨전 프로세스는 왜 손을 정확하게 그리지 못할까?

댓글 0

함께 읽은 게시물

< 일 잘하는 PM은 문제의 ‘이름’부터 정의한다 >

오픈소스 기여모임 9기 참여자를 모집합니다!

가치를 얻기 위한 투자

비슷한 게시물

주간 인기 TOP 10

추천 프로필