OpenAI는 사실적인 비디오 생성 기술 오픈

OpenAI 최신 기술 요약

OpenAI는 목요일에 텍스트와 이미지를 넘어 처음으로 비디오 생성 AI를 제공한다고 발표했습니다.

Sora라는 새로운 모델을 사용하면 사용자가 원하는 장면을 입력하고 이를 고화질 비디오 클립으로 변환할 수 있습니다.

AI가 생성한 비디오는 특히 올해 전 세계적으로 중요한 선거가 예정되어 있기 때문에 잘못된 정보를 우려하는 플랫폼에 또 다른 장애물을 만듭니다.

지난해 ChatGPT의 인기에 힘입어 주류로 떠오른 오픈AI(OpenAI)가 인공지능 기술을 영상에 접목하고 있다.

목요일 회사는 새로운 생성 AI 모델인 Sora를 출시했습니다. Sora는 OpenAI의 이미지 생성 AI 도구인 DALL-E와 유사하게 작동합니다.

사용자가 원하는 장면을 입력하면 소라가 고화질 비디오 클립을 반환합니다.

Sora는 스틸 이미지에서 영감을 받은 비디오 클립을 생성하고 기존 비디오를 확장하거나 누락된 프레임을 채울 수도 있습니다.

이제 챗봇과 이미지 생성기가 소비자와 비즈니스 세계에 진출했기 때문에 비디오는 생성 AI의 차세대 개척자가 될 수 있습니다.

창의적인 기회는 AI 애호가들을 흥분시키겠지만, 새로운 기술은 전 세계적으로 주요 정치 선거가 다가옴에 따라 심각한 잘못된 정보 문제를 야기합니다.

기계 학습 회사인 Clarity의 데이터에 따르면 AI로 생성된 딥페이크의 수가 전년 대비 900% 증가했습니다.

OpenAI는 Sora를 통해 Meta 와 같은 회사의 비디오 생성 AI 도구와 경쟁하려고 합니다.

그리고, 1 월에 Lumiere 를 발표 했습니다 . Stable Video Diffusion이라는 제품을 보유한 Stability AI와 같은 다른 스타트업에서도 유사한 AI 도구를 사용할 수 있습니다. 아마존

또한 프롬프트 기반의 단편 애니메이션 어린이 콘텐츠 생성을 전문으로 하는 모델인 Create with Alexa를 출시했습니다.

Sora는 현재 1분 이하의 동영상 생성으로 제한되어 있습니다. Microsoft 가 지원하는 OpenAI는 더 광범위한 AI 모델 제품군을 제공하려는 노력의 일환으로 텍스트, 이미지 및 비디오 생성을 결합하는 다중 양식을 목표로 삼았습니다.

OpenAI COO인 브래드 라이트캡(Brad Lightcap)은 “세상은 다중 모드입니다.”라고 말했습니다 . “우리 인간이 세상을 처리하고 세상과 소통하는 방식을 생각해 보면 우리는 사물을 보고, 듣고, 말합니다.

세상은 텍스트보다 훨씬 더 큽니다. 그래서 우리에게는 텍스트와 코드가 이러한 모델이 얼마나 강력하고 무엇을 할 수 있는지에 대해 우리가 가질 수 있는 단일 양식, 단일 인터페이스가 되는 것이 항상 불완전하다고 느꼈습니다.”

지금까지 Sora는 잘못된 정보 및 편견과 같은 영역에서 모델의 취약성을 테스트하는 소규모 안전 테스터 그룹, 즉 ”레드 팀”에게만 제공되었습니다.

이 회사는 자사 웹사이트에서 사용할 수 있는 10개의 샘플 클립 외에 공개 시연을 공개하지 않았으며, 함께 제공되는 기술 문서가 목요일 후반에 공개될 것이라고 밝혔습니다.

OpenAI는 또한 Sora가 생성한 비디오 클립을 식별할 수 있는 ”탐지 분류기”를 구축하고 있으며 AI 생성 콘텐츠를 식별하는 데 도움이 되는 특정 메타데이터를 출력에 포함할 계획이라고 밝혔습니다.

Meta가 이번 선거 연도에 AI 생성 이미지를 식별하는 데 사용하려는 것과 동일한 유형의 메타데이터 입니다 .

Sora는 ChatGPT와 마찬가지로 Google 연구진이 2017년 논문에서 소개한 Transformer 아키텍처를 사용하는 확산 AI 모델입니다.

OpenAI는 발표문에서 “Sora는 실제 세계를 이해하고 시뮬레이션할 수 있는 모델의 기반 역할을 합니다.”라고 밝혔습니다.