영상 제작 AI 모델 Sora(소라) 기술 리포트 요약 정리

최근 OpenAI에서 발표한 텍스트로 비디오 영상을 제작해주는 모델인 소라(Sora)에 대한 관심도가 높아지면서 현재 어떤 영역까지 가능하고 어떤 방식으로 진행되는지 궁금하여 테크니컬 리포트를 읽어보게 되었습니다. 기술 리포트이지만 전문가가 아닌 일반인들 수준에서 이해하고 내용을 정리해 보았습니다.

내용 전문을 읽어보시길 원하시는 분은 아래 링크를 통해 접속해보시기 바랍니다. 참고로 글에서 번역상의 오류 혹은 오해가 있을 수 있고, 모든 이미지와 영상을 올리지 못하는데 원문 글과 영상을 볼 때 이해도가 더 높아지기 때문에 관심 있으신 분들은 원문 글을 꼭 참고하시길 바라겠습니다.
(Video generation models as world simulators by OpenAI)

업데이트(2024.12.12) : (출시) Sora AI 사용 방법 및 후기


Video generation models as world simulators

OpenAI는 비디오 데이터에 대한 대규모 생성 모델 학습을 탐구하는데, 특히 다양한 길이, 해상도, 화면 비율의 동영상과 이미지에 대해 공동으로 텍스트 조건부 확산 모델(Text-conditional diffusion models)을 훈련한다고 합니다. 가장 큰 모델인 Sora는 현재 1분 정도의 동영상을 생성할 수 있으며 OpenAI의 연구 결과는 비디오 생성 모델을 확장하는 것이 물리적 세계의 범용 시뮬레이터(general purpose simulators)를 구축하는 데 있어 유용한 방식 임을 시사한다고 합니다.

made by Sora

OpenAI가 발표한 기술 보고서는 2가지에 집중하는데 (1) 모든 유형의 시각적 데이터를 대규모 생성 모델 학습을 가능하게 하는 통합된 표현으로 변환하는 방법과 (2) Sora의 기능과 한계에 대한 정성적 평가에 초점을 맞추고 있습니다. 다만 모델과 구현에 대한 자세한 내용은 보고서에 포함되어 있지는 않습니다.

(많은 선행 연구를 언급했는데 이 부분은 원문을 참고해보실 추천드립니다)
기존 선행 연구의 작업은 종종 좁은 범주의 시각 데이터나 짧은 동영상 또는 고정된 크기의 동영상에 초점을 맞추고 있습니다. Sora는 시각 데이터의 범용 모델로, 최대 1분 분량의 고화질 동영상까지 다양한 길이, 화면 비율 및 해상도의 동영상과 이미지를 생성할 수 있습니다.


1. Turning visual data into patches

patches

OpenAI는 인터넷 규모의 데이터에 대한 훈련을 통해 제너럴리스트 기능(generalist capabilities)을 습득하는 대규모 언어 모델에서 영감을 얻었습니다. LLM에는 토큰을 사용해 텍스트 코드, 수학 및 다양한 자연어를 통합하지만 Sora에는 시각적 패치(Patches)가 있습니다. 이 패치가 다양한 유형의 동영상과 이미지에서 생성 모델을 훈련하는 데 확장성이 높고 효과적인 표현이라는 것을 발견했습니다.

OpenAI에 따르면 상단 이미지처럼, 높은 수준에서 먼저 동영상을 저차원 잠재 공간(a lower-dimensional latent space)으로 압축한 다음 시공간 패치(spacetime patches)로 표현을 분해하여 동영상을 패치로 변환하는 방식을 사용합니다.


2. Video compression network

OpenAI는 시각 데이터의 차원을 줄이는 네트워크를 훈련하는데 이 네트워크는 원본 비디오를 입력으로 받아 시간적, 공간적으로 압축된 잠재적인 표현(a latent representation)을 내보냅니다. 소라는 이 압축된 잠재 공간 내에서 비디오를 학습한 후 생성하게 되고 생성된 잠상을 픽셀 공간에 다시 매핑하여 상응하는 디코더 모델(a corresponding decoder model)을 학습시킵니다.

3. Spacetime latent patches

압축된 입력 비디오가 주어지면, 트랜스포머 토큰(transformer tokens) 역할을 하는 시공간 패치 시퀀스를 추출합니다. 이미지는 단일 프레임의 비디오이기도 하므로 이 방식은 이미지에서도 작동합니다. 패치 기반의 표현을 통해 소라는 다양한 해상도, 길이, 화면 비율의 비디오와 이미지를 학습할 수 있습니다. 추론 시에는 무작위로 초기화된 패치를 적절한 크기의 그리드에 배열하여 생성된 비디오의 크기를 컨트롤할 수 있습니다.

4. Scaling transformers for video generation

Sora는 확산 모델로 텍스트 프롬프트와 같은 컨디셔닝 정보가 주어지면 원래의 “깨끗한” 패치를 예측하도록 훈련됩니다. 확산 모델은 여러가지 영역에서 훌륭한 확장성을 입증해내고 있는데, 비디오 모델로서도 효과적으로 확장된다는 사실을 확인했습니다. 아래 이미지는 트레이닝이 진행됨에 따라 고정된 시드와 인풋(fixed seeds and inputs)이 있는 비디오 샘플을 비교한 것인데, 훈련 연산이 증가함에 따라 샘플 품질이 현저하게 향상됩니다. (원문 글에서는 영상으로 제공됨)

Scaling transformers

5. Variable durations, resolutions, aspect ratios

이미지 및 동영상 생성에 대해 과거 접근 방식은 일반적으로 동영상을 표준 크기로 조정하거나 자르거나 트리밍하는데 이 대신 기본 크기의 데이터로 학습하면 몇 가지 이점을 얻을 수 있습니다.

(1) 샘플링 유연성

Sora는 와이드스크린 1920x1080p, 1080×1920 및 그 사이의 모든 비디오를 샘플링할 수 있습니다. 이를 통해 다양한 디바이스의 기본 화면 비율로 직접 콘텐츠를 제작할 수 있습니다. 또한 동일한 모델로 전체 해상도로 생성하기 전에 더 작은 크기로 콘텐츠를 빠르게 프로토타입으로 제작할 수 있습니다.

(아래 하단 이미지처럼 다양한 비율로 영상 제작 및 콘텐츠 생성이 가능합니다)

(2) 향상된 프레이밍 및 구도

모든 훈련 동영상을 정사각형으로 자르는 모델 버전과 생성 모델을 훈련할 때 일반적으로 사용되는 정사각형으로 자르는 모델 버전을 소라와 비교해 보면 차이점을 알 수 있습니다. 정사각형 크롭으로 훈련된 모델(왼쪽)은 피사체가 부분적으로만 보이는 동영상을 생성하는 경우가 있는데 소라는 이에 비해 프레임이 개선되었습니다.
(실제 원문에서는 영상임)

Improved framing and composition

6. Prompting with images and videos

소라는 기존 이미지나 동영상과 같은 다른 인풋으로 프롬프트를 표시해낼 수도 있습니다. 이 기능을 통해 소라는 완벽한 루핑(looping) 비디오 제작, 정적인 이미지 애니메이션, 시간 압뒤로 비디오를 확장하는 등 다양한 이미지 및 비디오 편집 작업을 수행할 수 있습니다.

(1) Animating DALL·E images

소라는 이미지에 프롬프트를 입력하면 이미지에서 동영상을 생성할 수 있는데, 아래는 DALL-E 231 및 DALL-E 330 이미지를 기반으로 생성된 비디오 예시입니다.
(원문글에서는 좌측에 이미지가 우측의 8초 짜리 영상으로 보여집니다)

(2) Extending generated videos

소라는 이외에도 여러가지 영상 생성 편집 기능을 가지고 있는데 동영상을 앞뒤로 확장할 수도 있습니다. 영상을 한 세그먼트에서 시작하여 모두 시간을 거꾸로 연장할 수 있는데 결과적으로 네 개의 동영상은 각각 시작은 다르지만 모두 동일한 엔딩으로 이어집니다.

(3) Video-to-video editing

텍스트 프롬프트에서 이미지와 비디오를 편집하는 다양한 방법이 가능해졌는데, SDEdit32를 Sora에 적용합니다. 이 기술을 통해 Sora는 입력된 동영상의 스타일과 환경을 제로 샷으로 변환할 수 있습니다.

(4) Connecting videos

소라는 사용하여 두 인풋 비디오 사이를 점진적으로 보강하여 완전히 다른 주제와 장면 구성을 가진 비디오 간에 매끄러운 전환을 만들어 낼 수 있습니다.

(개인적으로 이 부분이 가장 놀라웠습니다. 2가지 다른 영상의 핵심 부분을 도출하여 하나의 영상으로 합치면서도 논리적으로는 이상하지만 영상적으로는 이질적이지 않게 합쳐지는 모습을 보면서 이번 Sora의 기술적 리포트를 읽어봐야겠다고 생각했습니다. 실제 원문글에서 꼭 이 영상들을 한 번 보시길 추천드립니다)

(상단 이미지가 작지만 좌측의 고대 성곽 화면과 우측의 크리스마스 분위기의 눈사람이 가운데 이미지처럼 합쳐집니다. 참고로 이것이 이미지가 아닌 영상으로 나오는 놀라운 경험을 보게 됩니다!!)


7. Image generation capabilities

비디오 모델을 대규모로 훈련할 때 여러 가지 흥미로운 새로운 기능을 발휘한다는 사실도 발견했습니다. 이 기능을 통해 소라는 사람, 동물, 환경의 일부 측면을 실제 세계에서 시뮬레이션할 수 있습니다. 이러한 속성은 3D, 오브젝트 등에 대한 편향 없이(any explicit inductive biases) 순전히 규모에 따른 현상에서 나타납니다.

몇 가지 새로운 기능 특성은 다음과 같습니다.

1>3D consistency
소라는 카메라가 이동하고 회전함에 따라 사람과 장면 요소가 3차원 공간에서 일관되게 움직이게 합니다.

2>Long-range coherence and object permanence
소라는 항상 그런 것은 아니지만 종종 단거리 혹은 장거리에서 종속성을 모두 효과적으로 모델링할 수 있습니다. 예를 들어 사람, 동물, 사물이 가려지거나 프레임을 벗어난 경우에도 모델링이 지속될 수 있습니다.

3>Interacting with the world.
소라는 사물과 사람이 영향을 주고 받는 행동을 시뮬레이션할 수 있는데 예를 들어 화가가 캔버스에 그림을 그릴 때 새로운 획을 남기거나 남자가 햄버거를 먹은 후 물린 자국을 남길 수 있습니다.

Interacting with the world.

4>Simulating digital worlds.
소라는 비디오 게임과 같은 인공적인 프로세스도 시뮬레이션할 수 있습니다. Minecraft에서 플레이어를 제어하는 동시에 세계와 그 역학 관계를 충실하게 랜더링할 수 있습니다.

Simulating digital worlds

8. Discussion

현재까지 소라는 시뮬레이터로서 많은 한계를 드러내고 있습니다. 예를 들어 유리가 깨지는 것과 같은 기본적인 상호작용의 물리학을 정확하게 모델링하지 못합니다. 음식을 먹는 것과 같은 것도 항상 명확하게 표현되지 않습니다. 장시간 샘플에서 발생하는 불일치 또는 물체의 자연스러운 출현과 같은 모델의 다른 일반적인 실패 모드를 랜딩 페이지에 열거하고 있습니다.

현재 소라가 보유한 기능은 비디오 모델의 지속적인 확장이 물리적 및 디지털 세계와 그 안에 존재하는 사물, 동물, 사람에 대한 유능한 시뮬레이터의 개발을 향한 유망한 길이라는 것을 보여줍니다.


여기까지 소라 모델에 대한 관심으로 기술 리포트도 읽어보게 되었습니다. 깜짝놀라운 영상들과 기술들도 많았고 이런 퀄리티의 영상이 몇 줄의 프롬프트로 짧은 시간에 만들어지는 세상이 조만간 온다는 것이 놀랍습니다. 여전히 OpenAI와 AI 기술들이 우리가 살아가는 세상을 어디까지 그리고 얼마나 빠르게 변화하게 만들지 놀라움을 느끼며 흥미롭게 따라가게 됩니다.

이처럼 한 번 놓치면 따라가기도 벅찬 생성형 AI 분야이기에 테크뷰는 블로그를 통해 중요한 정보 위주로 빠르고 간략하게 정리해서 지속적으로 관련 분야를 공유할 예정입니다. 많은 관심 부탁드립니다!!

테크뷰 생성형AI 제품 리스트 및 사용자 후기 바로가기


함께보기 좋은글

0. Sora AI 사용 방법 및 사용 후기(영상 제작)
1. 일론 머스크 xAI, Grok 2 출시 및 사용 방법, 후기
2. 업무 시간을 줄여줄 AI 툴 도구 모음
3. Llama3를 내 PC에서 무료로 사용하는 방법 (GPT4All & RAG)
4. ChatGPT vs Gemini vs Claude 비교 총정리(&대안)
5. Perplexity AI : ChatGPT, Claude, LLaMa를 한 곳에서 사용하는 방법!
6. 신규 GPT-4o 사용 방법 및 업데이트 정리(원문 다운)
7. Meta AI Llama 3 출시와 무료 사용 방법!
8. Sora : OpenAI 신규 모델, 텍스트로 비디오 영상 제작
9. 구글 제미나이 1.5 사전 등록 방법 및 Gemini API 사용
10. AI시대 경제적 해자(Moat)에 대해서

reviewinsight100

리뷰인사이트는 SaaS 플랫폼 ‘테크뷰’를 통해 B2B 소프트웨어 선택을 더 쉽게 만듭니다. “테크뷰를 만나면 선택이 쉬워진다”는 믿음으로, 신뢰할 수 있는 콘텐츠와 리뷰를 전달합니다. SaaS 산업과 함께 성장하고 싶은 여러분을 환영하며, 유익한 정보로 꾸준히 찾아뵙겠습니다.
지금 구독하고 최신 SaaS 인사이트를 가장 먼저 받아보세요!

댓글 남기기

댓글 남기기

테크뷰 블로그에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기