OpenAI에서 다시 한 번 깜짝 놀랄말한 모델을 공개했습니다. 얼마 전에 텍스트로 이미지를 만드는 모델을 ChatGPT에 통합하면서 이제는 텍스트로 영상을 만들어 내는 모델까지 통합함으로 멀티 모달에 점점 더 다가가고 일반(범용) 인공 지능 AGI에 한 걸음 더 다가간 느낌이 듭니다.
OpenAI에서 공개한 Sora 모델에 대해서 간단하게 정리해보았습니다. 상세한 세부 내용은 OpenAI에서 공개한 Sora 페이지에서 확인해보시면 됩니다.
업데이트(2024.12.12) : (출시) Sora AI 출시 및 사용 방법, 후기
1. Sora 기능
먼저 깜짝 놀랄만한 OpenAI의 영상을 한 번 확인해보겠습니다. 위 영상은 OpenAI에서 공개한 영상으로 해당 페이지에서 확인할 수 있습니다. 실제 텍스트 프롬프트를 넣고 만들어졌으며 편집을 하지 않은 버전이라고 합니다. 프롬프트는 아래와 같습니다.
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
정말 놀라운 일들이 일어나고 있습니다. 20초 남짓의 영상이 단 2~3줄의 글로 만들어졌습니다. 이제는 유튜브의 영상이나 숏폼 영상들이 별도의 큰 비용 없이 몇 분만에 뚝딱 만들어지는 세상이 다가오고 있습니다.
OpenAI에서 공개한 Sora 모델에 대해서 그 기능 중심으로 정리해 보았습니다.
1> Sora 모델은 현재 최대 1분 길이의 비디오를 생성할 수 있다.
2> 현재 창의적인 전문가에게 피드백을 얻기 위해 다수의 시각 예술가, 디자이너 및 영화 제작자에게만 엑세스 권한을 부여하고 있다. (일반인은 현재 사용 불가)
3> 여러 캐릭터, 특정 유형의 동작, 피사체와 배경의 정확한 세부 정보를 이해하고 복잡한 장면을 생성할 수 있다.
OpenAI는 신 모델을 출시할 때 우선 일부 전문가에 공개해 피드백을 얻어 수정하는 과정을 거쳐 일반인들에게 공개하기도 하는데 Sora 모델은 이 프로세스를 따른다고 합니다. 그 부분이 살짝 아쉬운 상황입니다.
또한 현재 모델의 한계점도 당당하게 공개했습니다. (OpenAI Sora 페이지 발췌)
복잡한 장면의 물리학을 정확하게 시뮬레이션하는 데 어려움이 있고 원인과 결과의 특정 사례를 이해하지 못할 수도 있다고 합니다. 예를 들어 어떤 사람이 쿠키를 한 입 베어물었는데 그러면 쿠키가 그 만큼 없어져야 하는데 그 자국 없이 그대로 있을 수도 있다는 의미입니다.
또한 왼쪽과 오른쪽을 혼합하는 등 공간적 세부 사항을 혼동하거나, 특정 카메라 궤적을 따른 것과 같이 시간이 지남에 따라 발생하는 이벤트에 대한 정확한 설명에 어려움을 겪을 수 있다고 합니다. 즉, 아직 사람만큼 시간의 흐름에 따른 원인과 결과를 명확히 이해하거나 추론하여 영상을 만드는 능력은 부족한 것처럼 보입니다.
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.
위에 영상을 보면 정말 실제 같다는 느낌이 드는데 초기에 3마리였던 강아지가 갑자기 뭉치면서 숫자가 늘어납니다. 현실 세계에 단순한 착시 효과라고 보기에는 영상적 오류로 느껴지는 부분 입니다. 이런 부분에서 OpenAI는 한계점을 감추지 않고 그대로 들어내어 오히려 신뢰감이 느껴지는 부분입니다.
2. 안전(Safety)
AI 모델을 사용하거나 확산될 때마다 가장 많은 논쟁이 있는 부분은 바로 AI의 급격한 발전이 안전한지 여부입니다. 이에 대해 OpenAI는 몇 가지 사항을 공유했습니다.
1> 잘못된 정보, 증오 콘텐츠, 편견 같은 분야에 도메인 전문가 레드팀과 협력해 관리
2> 오해의 소지가 있는 콘텐츠를 감지하는데 도움이 되는 도구 구축
3> OpenAI의 텍스트 분류기는 극단적인 폭력, 성적인 콘텐츠, 혐오스러운 이미지, 유명인 초상 또는 타인의 IP를 요청하는 것과 같이 당사의 사용 정책을 위반하는 텍스트 입력 프롬프트를 확인하고 거부
4> 생성된 모든 비디오의 프레임을 검토하여 사용자에게 표시되기 전에 사용 정책을 준수하는지 확인하는 데 사용되는 강력한 이미지 분류자를 개발
위에 내용을 정리하면 결국 유해한 콘텐츠나 타인의 이미지, IP 등을 무분별하게 사용해 오해를 만들 수 있는 요소를 사전에 입력한 프롬프트를 관리하거나 생성된 영상 자체에서도 후속 검토까지 하겠다는 의미입니다. 물론 이러한 검토만으로도 모든 것을 막을 수 없음을 인정하기도 하면서 AI 시스템의 지속적인 발전이 점차 개선해나갈 것이라고 합니다.

3. 연구 기술
OpenAI는 Sora 모델의 연구 기술에 대해서도 간략히 공유하고 있습니다.
1> 정적인 노이즈처럼 보이는 비디오로 시작하여 여러 단계를 거쳐 노이즈를 제거하여 점차적으로 비디오를 변형시키는 확산 모델
2> 전체 비디오를 한 번에 생성하거나 생성된 비디오를 확장하여 더 길게도 가능
3> 다양한 영상 길이, 해상도 및 종횡비 등 더 광범위한 시각적 데이터 교육 가능
4> DALL·E 3의 재캡션 기술을 사용해 사용자의 텍스트 지시를 더 충실히 따름
5> 텍스트 뿐만 아니라 기존 정지 이미지로 비디오 생성 가능
Technical Report를 공개했습니다. 더 상세한 기술 정보가 궁금하신 분들은 확인해보세요. (리포트 바로가기, Sora(소라) : 기술(Technical) 리포트 요약 정리)
OpenAI가 새로운 소식을 내어 놓을 때마다 깜짝 놀라곤 합니다. 이번 영상을 만들어 내는 Sora 모델도 언젠가는 하겠지라고 생각했지만 이렇게 빨리 그리고 이 정도 퀄리티라니 놀라운 상황입니다.
Sora 모델 외에도 OpenAI에 대한 한 가지 소식이 더 들려왔는데 구글과 경쟁할 수 있는 새로운 웹 검색 제품을 개발 중이라는 소식입니다. AI 모델이 정보를 검색하고 답변을 생성하는 능력이 확대되면서 구글이 장악한 링크(개별 웹페이지)를 제공하는 검색 시장에 새로운 고객 경험을 제공하려고 하고 있습니다. (The Information에서 제공한 관련 정보, 유료 ㅜㅜ)
이처럼 한 번 놓치면 따라가기도 벅찬 생성형 AI 분야이기에 테크뷰는 블로그를 통해 중요한 정보 위주로 빠르고 간략하게 정리해서 지속적으로 관련 분야를 공유할 예정입니다. 많은 관심 부탁드립니다!!
테크뷰 생성형AI 제품 리스트 및 사용자 후기 바로가기

함께보기 좋은글
0. Sora AI 사용 방법 및 사용 후기(영상 제작)
1. 일론 머스크 xAI, Grok 2 출시 및 사용 방법, 후기
2. 업무 시간을 줄여줄 AI 툴 도구 모음
3. Llama3를 내 PC에서 무료로 사용하는 방법 (GPT4All & RAG)
4. ChatGPT vs Gemini vs Claude 비교 총정리(&대안)
5. Perplexity AI : ChatGPT, Claude, LLaMa를 한 곳에서 사용하는 방법!
6. 신규 GPT-4o 사용 방법 및 업데이트 정리(원문 다운)
7. Meta AI Llama 3 출시와 무료 사용 방법!
8. Sora : OpenAI 신규 모델, 텍스트로 비디오 영상 제작
9. 구글 제미나이 1.5 사전 등록 방법 및 Gemini API 사용
10. AI시대 경제적 해자(Moat)에 대해서







댓글 남기기