Introducing Sora - OpenAI's Text-to-Video Model for Realistic 60-Second Clips
Medium
최근에 OpenAI에서 ChatGPT, DALL-E에 이어 Sora를 출시하였는데요. 몇 분도 아니고 몇 초내로 동영상을 만들어 준다는 Sora가 무엇인지 3분 내로 소개하는 좋은 기사 공유합니다.😃
<Sora 소개 — 사실적인 60초 클립을 위한 OpenAI의 텍스트-비디오 모델>
Sora는 텍스트 설명에서 바로 사실적인 비디오를 생성하는 생성형 비디오(generative video)입니다.
Sora의 작동 원리
Sora는 정적 노이즈(static noise)로 시작한 다음 시간이 지남에 따라 이상 현상을 제거하여 프레임별로 일관된 비디오 영상을 형성하는데요, Output이 정말 현실적으로 나온다고 합니다.
Sora는 GPT 언어 모델과 유사한 트렌스포머(stransformer) 아키텍처를 사용하는데요, 이를 통해 이전 비디오 합성(synthesis) 모델에 비해 뛰어난 스케일링 성능을 제공한다고 하네요.
특히 Sora는 비디오를 순차적으로 스트리밍되는 이미지인 시각적인 "패치(patches)"로 처리합니다.
이러한 패러다임 전환으로 인해 단일 이미지를 입력으로 사용하는 접근 방식보다 더 높은 비디오 품질과 더 빠른 렌더링이 가능해졌습니다.
Dall-E 및 GPT 기능 확장
DALL-E 이미지 생성 및 GPT 언어 이해를 기반으로 Sora는 설명(descriptive) 텍스트 프롬프트를 활용하여 비디오 요청을 밀접하게 일치시킵니다.
Still photo을 전달하면 Sora가 시각적 콘텐츠를 기반으로 사실적으로 애니메이션을 적용하고, 이러한 inch AI로 인해 시각적 세계의 다양성을 진정으로 파악하고 시뮬레이션이 가능해 졌습니다.
처음에 OpenAI는 더 많은 실제 테스트와 피드백을 허용하기 위해 시각 예술가, 디자이너 및 영화 제작자에게 액세스 권한을 부여하였습니다.
Sora의 단점
복잡한 장면에 있어서는 물리학으로 인한 어려움이 있다고 합니다.
먹고 있는 쿠키임에도 물린 자국이 없습니다.
왼쪽/오른쪽 방향을 혼합합니다.
카메라의 지시를 항상 정확하게 따를 수는 없습니다.
Sora 비디오는 매우 사실처럼 보이지만 시간이 지남에 따라 더 미세한 세부 사항을 정확하게 시뮬레이션하기 위한 작업은 여전히 남아 있습니다.
Sora의 보안(safety) 이슈 해소를 위한 노력
잠재적인 오용에 대한 전문가 "레드팀" 테스트
허위/오해의 소지가 있는 콘텐츠를 탐지하는 도구
AI 생성 동영상에 라벨을 붙이는 메타데이터
Sora 비디오 요청에도 DALL-E와 같이 폭력, 증오심 표현 등에 대한 이미지 프롬프트를 필터링
원본 기사 링크는 아래와 같습니다. 감사합니다🙏
[Source Link] https://medium.com/the-ai-explorer/introducing-sora-openais-text-to-video-model-for-realistic-60-second-clips-162b0a21b787
다음 내용이 궁금하다면?
이미 회원이신가요?
2024년 2월 27일 오전 1:12
지비지오는 지난해 5월 서비스 출시 후 월평균 거래액이 45%씩 성장했다. 지난 3월 100억원의 시리즈A 투자도 유치했다. 데이터 기반으로 경쟁력을 키운 게 주효했다. 일례로 인스타그램에서 댓글을 달면 DM으로 구매 링크를 자동 발송하는 기능을 자체 개발해 무료로 배포했다. 다이렉트 메시지(DM)을 활용하는 인플루언서의 실적이 더 높다는 데이터를 확인했기 때문이다.
... 더 보기사용자 모으니 매출안난다고 난리
... 더 보기아기유니콘 사업을 주관한 중기부는 F사가 성인 콘텐츠 사업을 영위하고 있는 것에 대해 충분히 인지하지 못했다는 입장이다. 중기부 관계자는 “해당 F사의 사업 계획서 내용과 조금 다른 부분이 있었던 것 같다”면서 “아직 협약 체결을 하지 않은 상태이기 때문에, 관련 사안을 더욱 면밀히 파악하고 최종 협약 여부를 결정하겠다"라고 말했다.
... 더 보기누
... 더 보기