OpenAI의 Sora 3분내로 소개하기
최근에 OpenAI에서 ChatGPT, DALL-E에 이어 Sora를 출시하였는데요. 몇 분도 아니고 몇 초내로 동영상을 만들어 준다는 Sora가 무엇인지 3분 내로 소개하는 좋은 기사 공유합니다.😃 * Sora는 텍스트 설명에서 바로 사실적인 비디오를 생성하는 생성형 비디오(generative video)입니다. Sora의 작동 원리 * Sora는 정적 노이즈(static noise)로 시작한 다음 시간이 지남에 따라 이상 현상을 제거하여 프레임별로 일관된 비디오 영상을 형성하는데요, Output이 정말 현실적으로 나온다고 합니다. * Sora는 GPT 언어 모델과 유사한 트렌스포머(stransformer) 아키텍처를 사용하는데요, 이를 통해 이전 비디오 합성(synthesis) 모델에 비해 뛰어난 스케일링 성능을 제공한다고 하네요. * 특히 Sora는 비디오를 순차적으로 스트리밍되는 이미지인 시각적인 "패치(patches)"로 처리합니다. * 이러한 패러다임 전환으로 인해 단일 이미지를 입력으로 사용하는 접근 방식보다 더 높은 비디오 품질과 더 빠른 렌더링이 가능해졌습니다. Dall-E 및 GPT 기능 확장 * DALL-E 이미지 생성 및 GPT 언어 이해를 기반으로 Sora는 설명(descriptive) 텍스트 프롬프트를 활용하여 비디오 요청을 밀접하게 일치시킵니다. * Still photo을 전달하면 Sora가 시각적 콘텐츠를 기반으로 사실적으로 애니메이션을 적용하고, 이러한 inch AI로 인해 시각적 세계의 다양성을 진정으로 파악하고 시뮬레이션이 가능해 졌습니다. * 처음에 OpenAI는 더 많은 실제 테스트와 피드백을 허용하기 위해 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하였습니다. Sora의 단점 * 복잡한 장면에 있어서는 물리학으로 인한 어려움이 있다고 합니다. * 먹고 있는 쿠키임에도 물린 자국이 없습니다. * 왼쪽/오른쪽 방향을 혼합합니다. * 카메라의 지시를 항상 정확하게 따를 수는 없습니다. * Sora 비디오는 매우 사실처럼 보이지만 시간이 지남에 따라 더 미세한 세부 사항을 정확하게 시뮬레이션하기 위한 작업은 여전히 남아 있습니다. Sora의 보안(safety) 이슈 해소를 위한 노력 * 잠재적인 오용에 대한 전문가 "레드팀" 테스트 * 허위/오해의 소지가 있는 콘텐츠를 탐지하는 도구 * AI 생성 동영상에 라벨을 붙이는 메타데이터 * Sora 비디오 요청에도 DALL-E와 같이 폭력, 증오심 표현 등에 대한 이미지 프롬프트를 필터링 원본 기사 링크는 아래와 같습니다. 감사합니다🙏 [Source Link] https://medium.com/the-ai-explorer/introducing-sora-openais-text-to-video-model-for-realistic-60-second-clips-162b0a21b787