Introducing Sora - OpenAI's Text-to-Video Model for Realistic 60-Second Clips
Medium
최근에 OpenAI에서 ChatGPT, DALL-E에 이어 Sora를 출시하였는데요. 몇 분도 아니고 몇 초내로 동영상을 만들어 준다는 Sora가 무엇인지 3분 내로 소개하는 좋은 기사 공유합니다.😃
<Sora 소개 — 사실적인 60초 클립을 위한 OpenAI의 텍스트-비디오 모델>
Sora는 텍스트 설명에서 바로 사실적인 비디오를 생성하는 생성형 비디오(generative video)입니다.
Sora의 작동 원리
Sora는 정적 노이즈(static noise)로 시작한 다음 시간이 지남에 따라 이상 현상을 제거하여 프레임별로 일관된 비디오 영상을 형성하는데요, Output이 정말 현실적으로 나온다고 합니다.
Sora는 GPT 언어 모델과 유사한 트렌스포머(stransformer) 아키텍처를 사용하는데요, 이를 통해 이전 비디오 합성(synthesis) 모델에 비해 뛰어난 스케일링 성능을 제공한다고 하네요.
특히 Sora는 비디오를 순차적으로 스트리밍되는 이미지인 시각적인 "패치(patches)"로 처리합니다.
이러한 패러다임 전환으로 인해 단일 이미지를 입력으로 사용하는 접근 방식보다 더 높은 비디오 품질과 더 빠른 렌더링이 가능해졌습니다.
Dall-E 및 GPT 기능 확장
DALL-E 이미지 생성 및 GPT 언어 이해를 기반으로 Sora는 설명(descriptive) 텍스트 프롬프트를 활용하여 비디오 요청을 밀접하게 일치시킵니다.
Still photo을 전달하면 Sora가 시각적 콘텐츠를 기반으로 사실적으로 애니메이션을 적용하고, 이러한 inch AI로 인해 시각적 세계의 다양성을 진정으로 파악하고 시뮬레이션이 가능해 졌습니다.
처음에 OpenAI는 더 많은 실제 테스트와 피드백을 허용하기 위해 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하였습니다.
Sora의 단점
복잡한 장면에 있어서는 물리학으로 인한 어려움이 있다고 합니다.
먹고 있는 쿠키임에도 물린 자국이 없습니다.
왼쪽/오른쪽 방향을 혼합합니다.
카메라의 지시를 항상 정확하게 따를 수는 없습니다.
Sora 비디오는 매우 사실처럼 보이지만 시간이 지남에 따라 더 미세한 세부 사항을 정확하게 시뮬레이션하기 위한 작업은 여전히 남아 있습니다.
Sora의 보안(safety) 이슈 해소를 위한 노력
잠재적인 오용에 대한 전문가 "레드팀" 테스트
허위/오해의 소지가 있는 콘텐츠를 탐지하는 도구
AI 생성 동영상에 라벨을 붙이는 메타데이터
Sora 비디오 요청에도 DALL-E와 같이 폭력, 증오심 표현 등에 대한 이미지 프롬프트를 필터링
원본 기사 링크는 아래와 같습니다. 감사합니다🙏
[Source Link] https://medium.com/the-ai-explorer/introducing-sora-openais-text-to-video-model-for-realistic-60-second-clips-162b0a21b787
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 27일 오전 1:12
우
... 더 보기제
... 더 보기베
... 더 보기