본문 바로가기
IT인터넷상식

글만 쓰면 영상이 만들어져요. 오픈 AI 소라(Sora) 그것이 궁금하다.

by moongon 2024. 3. 13.
반응형

오픈 AI 소라(Sora)란?

2024년 2월15일 밤, chat GPT의 OpenAI가 텍스트-비디오 모델인 Sora를 소개했습니다.
홈페이지에 공개된 비디오의 퀄리티가 너무 높아서 믿기지 않을 만큼 놀랐습니다. 
'Sora는 텍스트 지침을 통해 현실적이고 상상력이 풍부한 장면을 만들 수 있는 AI 모델입니다. 
본 페이지의 모든 영상은 소라에서 어떠한 수정 없이 직접 제작되었습니다.'라는 글을 써놓지 않았다면 그냥 카메라로 촬영한 영상인가 보다 했을 겁니다. 특히 유리나 선글라스에 반사되는 느낌이나 사람의 걸음걸이, 카메라의 자연스러운 거리감 등이 너무 사실적이라 놀라웠습니다.
기존의 텍스트 to 비디오 툴의 성능을 몇단계 발전한 성능을 보여줍니다. 현재는 최대 1분까지 생성이 가능하다고
발표하였습니다. 항상 이런 신기술을 접하면 "이게 어떻게 가능해?"라는 질문이 생깁니다.
그래서 홈페이지에 공개된 기술 보고서와 여러 기사를 검색하고 나름 정리를 해봤습니다.
우선 Sora가 무슨 뜻일까요? 일본어로 '하늘'을 뜻합니다. “무한한 창의성을 떠올리게 하기 위해서”라고 개발팀이 밝혔습니다. 새로운 인공지능(AI) 모델인 Sora는 명령어를 글로 입력하면(프롬프트라고 합니다.) 이를 영상으로 생성해 주는 멀티모달 AI입니다. 여기서 중요한 키워드는 '글로 명령한다.' 전문용어로 '텍스트 프롬프트'라고 합니다. chat GPT와 연관성이 많다는 것을 보여줍니다. Sora는 "chat GPT와 마찬가지로 트랜스포머( Transformer; 단어나 문장 등 입력데이터에서 중요 정보를 추출하고 출력데이터를 생성하는 딥러닝 모델)아키텍처 기반입니다. 동영상과 이미지를 패치(patches)는 작은 데이터 단위 모음으로 표현하며, 각 패치는 언어모델의 ‘토큰’과 유사한 방식으로 작동합니다. 방식에 대해서는 대형언어모델(LLM)의 텍스트 토큰처럼, 이미지 데이터를 압축한 뒤 ‘시각적 패치’로 변환하고 이후 분해해 영상으로 표현한다"고 설명을 해놓았습니다. 이야기를 쉽게 설명하면 비디오들을 Visual encoder로 작은 조각으로 나누어준 후 그 조각들을 다시 배열하고 수정하는 단계에 많은 훈련으로 단련시켜 고품질의 비디오를 만들게 되었다고 합니다. 이 과정은 글씨를 만드는 과정과 비슷하다고 합니다. 처음에는 비디오 조각들을 알맞은 위치에 조금씩 배치합니다. 아직은 글자를 알아볼 수 없는 단계입니다. 점차 학습훈련을 통해서 많은 양의 조각을 제 위치에 배치되도록 훈련하면 점점 글자의 형상이 정확해지면서 완벽한 글자로 만들어지는 원리라고 합니다. 그리고 이렇게까지 정확히 영상을 만들어낼 수 있는 또 하나의 이유는 OpenAI가 기존에 만들어 놓은 이미지 생성 모델 달리3(DALL-E 3)에 연구를 기반으로 해서 텍스트 프롬프트의 논리를 언어적으로 이해하고 생성시키기 때문입니다. OpenAI에서는 "소라는 언어에 대한 깊은 이해를 갖고 있어, 프롬프트(지시 말)를 정확하게 해석하고 생생한 감정을 표현하는 매력적인 캐릭터를 생성할 수 있다”며 “사용자가 프롬프트에서 요구한 것뿐만 아니라 프롬프트 내용이 물리적 세계에 어떻게 존재하는지 이해한다”고 설명했습니다. 물체들이 실제 세계에서 어떻게 행동하는지 이해하고 그것에 맞게 자연스럽게 생성한다는 것입니다. 

Sora의 기능

Sora의 기능들을 살펴보겠습니다.
유연한 샘플링 기능
Sora는 와이드스크린 1920x1080p 비디오, 수직 1080x1920 비디오 및 그 사이의 모든 것을 샘플링할 수 있습니다. 
이를 통해 소라는 다양한 장치를 위한 콘텐츠를 기본 화면 비율로 직접 만들 수 있습니다. 또한 이를 통해 동일한 모델로 완전한 해상도로 생성하기 전에 더 낮은 크기로 콘텐츠를 빠르게 프로토타입과 할 수 있습니다.

 

이미지 to 비디오 기능
정지된 사진을 움직이게 하거나 삽화를 만화영화처럼 만들 수도 있습니다. 특수효과나 복합적인 이미지도 연출로 만들 수 있습니다. 

영상의 확장 기능 
영상의 앞뒤를 확장할 수 있습니다. 예를 들어 시작이 다른 동영상들을 모두 동일한 마무리 영상, 무한루프 영상 등을 만들 수 있습니다.

비디오 to 비디오 기능
서로 다른 주제의 영상을 합성할 수 있습니다. 예를 들어 도로를 달리는 자동차 영상에 배경을 바닷속으로 바꿀 수 있습니다. 그리고 드론이 날아다니는 영상과 나비가 날아다니는 영상을 서로 보간하여 드론 위치에 나비를 넣을 수 있습니다.
현재까지 공개된 소라의 주요 기능을 살펴봤습니다.

제한사항

현재까지 발표된 최강의 텍스트 to 비디오 툴이지만 몇 가지 제한 사항이 있습니다.
첫 번째는 물리학적 오류입니다. 컵이 깨지는 장면이라던가 링에 농구공이 들어가는 표현이 제대로 구현되지 못하고 아직은 시뮬레이션하는데 한계를 보입니다. 둘째는 상호작용 오류입니다. 초를 불어서 바람이 불어도 촛불에 영향을 주는 상호작용이 일어나지 않는다든지 많은 개체를 포함하면 표현이 부정확 하다는 오류입니다. 하지만 정식으로 출시되면 어떻게 될지 지켜봐야 할 부분입니다.
현재는 굉장히 한정적으로 디자이너와 크리에이터에게만 엑세스를 제공하고 있는데 출시도 전에 발표한 이유가 있습니다. Sora는 영상을 사실적으로 생성하기에 성적 내용, 극단적인 내용, 딥페이크같이 범죄에 사용될 것을 우려 정책을 강화하고 가이드라인을 구축하려는 의도입니다. 그리고 베타 테스터들에게 피드백을 받고 업데이트 후에 출시할 예정인 것 같습니다. 대중들에게 기술의 발전에 대해 감을 제공하고자 출시 전에 미리 공개하였다고 OpenAI가 밝혔습니다. (“Sora는 대중에게 공개되기 전 중요한 테스트를 거치며 안전 조치를 취할 것”이라고 했습니다. 
오픈AI는 “예를 들어 극단적인 폭력이나 성적이고 혐오스러운 이미지 또는 유명인의 초상을 사용하라는 요청을 거부하게 할 것”이라며 “또한 생성된 모든 비디오를 검토해 표시되기 전 사용 정책을 준수하는지 확인하겠다”고 OpenAI가 발표한 전문입니다) chat GPT와 Sora의 발표가 인간보다 더 뛰어난 인공지능인 AGI를 달성하기 위한 중요한 기준이 될 거라고 합니다.

Sora의 영향

OpenAI가 Sora를 공개한 후 이 회사의 최고경영자(CEO)인 샘 올트먼의 암호화폐 프로젝트인 ‘월드코인(WLD)’ 가격이 꾸준한 상승세를 보입니다. Sora의 등장과 월드코인 급등 사이에 직접적인 관계는 없는 것 같습니다. 하지만 계속 새로운 AI 기술을 내놓으며 OpenAI의 기업가치와 샘 올트먼의 존재감이 월드코인 시세에도 영향을 주는 것 같습니다.

반응형
  • 네이버 블러그 공유하기
  • 페이스북 공유하기
  • 트위터 공유하기
  • 구글 플러스 공유하기
  • 카카오톡 공유하기
  • 카카오스토리 공유하기