텍스트로 영상 만드는 법에 대해 소개하겠습니다. OpenAI가 최근 발표한 SORA는 텍스트를 영상으로 변환하는 인공지능 서비스입니다. 이 기술은 사용자가 입력한 텍스트를 기반으로 최대 1분 길이의 동영상을 생성할 수 있습니다. 이 놀라운 기능을 지금 바로 확인해보시죠.
Sora와 유사한 AI 영상 플랫폼
기존 AI 기반 영상 생성 및 편집 플랫폼은 다음과 같은 것들이 있습니다.
- Runway: 비디오 편집 및 이미지 생성을 위한 AI 플랫폼. Runway
- Descript: 오디오 및 비디오의 텍스트 기반 편집을 지원하는 AI 플랫폼. Descript
- Synthesia: 텍스트 입력으로 비디오를 생성할 수 있는 서비스, 가상 아바타 사용. Synthesia
- EMO AI: 알리바바 EMO AI 모델로 말하고 노래하는 인물 영상 만드는 기술 소개
이 서비스들의 비디오 생성 가능 시간은 서비스마다 다르며, 상세 정보는 각각의 웹사이트에서 확인할 수 있습니다.
Sora 사용법
Sora를 활용하여 ChatGPT에서 다음과 같이 명령 프롬프트를 작성하여 동영상을 생성할 수 있습니다. 또한 게임의 영상도 랜더링 할 수 있습니다.
멋진 제작 영상과 프롬프트를 감상하시고 어떻게 OpenAI Sora 모델이 텍스트를 기반으로 영상을 만들었는지 글 하단에서 자세히 분석해보겠습니다. 또한 Sora 모델의 능력과 한계에 대한 내용도 확인해보겠습니다.
다음은 openai 에서 제공해 준 제작 영상 예시입니다.
가장 최근에 공개한 영상을 확인하시려면 글 하단으로 이동하시기 바랍니다.
Sora 사용법 1.리얼리틱한 영상
우리가 생각하는 영화의 한 장면 또는 현실감 있는 시나리오는 텍스트로 작성하면 정말 실제 영상 같은 동영상을 제작해줍니다.
프롬프트 예시 1. 도쿄의 네온 빛나는 밤거리를 걷는 스타일리시한 여성
Prompt: A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.
프롬프트 예시 2. 나이지리아 라고스 사람들의 일상
Prompt: A beautiful homemade video showing the people of Lagos, Nigeria in the year 2056. Shot with a mobile phone camera.
Sora 사용법 2. 다양한 장면 재현 능력
SORA의 능력은 단순한 장면 재현에 그치지 않습니다.
사용자가 상세하게 설명한 다양한 시나리오도 영상으로 만들어줍니다.
예를 들어 거대한 털 매머드가 눈 덮인 초원을 걷는 장면이나, 우주인의 모험 같은 복잡한 장면도 실제와 같이 묘사할 수 있습니다.
프롬프트 예시 1. 매머드가 눈 덮인 초원을 걸어가는 아름다운 겨울 풍경
Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
프롬프트 예시 2. 우주인의 모험
Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
프롬프트 예시3. 드론 시점의 오프로드를 달리는 SUV 차량
Prompt: The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. The dirt road curves gently into the distance, with no other cars or vehicles in sight. The trees on either side of the road are redwoods, with patches of greenery scattered throughout. The car is seen from the rear following the curve with ease, making it seem as if it is on a rugged drive through the rugged terrain. The dirt road itself is surrounded by steep hills and mountains, with a clear blue sky above with wispy clouds.
Sora 사용법 3. 애니메이션 제작
Sora는 현실감 있는 영상 및 장면 재현 뿐만 아니라 애니메이션도 만들 수 있습니다.
프롬프트 예시 1. 춤을 추는 캥거루 케릭터
Prompt: A cartoon kangaroo disco dances.
프롬프트 예시 2. 호기심 가득한 케릭터가 녹는 촛불을 바라보는 장면
Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
프롬프트 예시 3. 토끼와 다람쥐를 닮은 케릭터가 마법의 숲을 체험하는 3D애니메이션
Prompt: 3D animation of a small, round, fluffy creature with big, expressive eyes explores a vibrant, enchanted forest. The creature, a whimsical blend of a rabbit and a squirrel, has soft blue fur and a bushy, striped tail. It hops along a sparkling stream, its eyes wide with wonder. The forest is alive with magical elements: flowers that glow and change colors, trees with leaves in shades of purple and silver, and small floating lights that resemble fireflies. The creature stops to interact playfully with a group of tiny, fairy-like beings dancing around a mushroom ring. The creature looks up in awe at a large, glowing tree that seems to be the heart of the forest.
Sora 사용법 4. 감성 표현을 시각적 스타일로 완성해주는 영상 제작
Sora는 언어에 대한 깊은 이해를 갖추고 있어 감성을 표현하는 프롬프트도 정확하게 해석하고 이를 영상으로 제작해줍니다.
프롬프트 예시1. 아름다운 예술 작품이 있는 미술관 투어
Prompt: Tour of an art gallery with many beautiful works of art in different styles.
프롬프트 예시 2. 눈 내린 아름다운 풍경의 도쿄 거리를 걷는 커플
Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
Sora 사용법 5. SF 영화 영상 제작
공상과학에 등장할만한 영상도 제작해줍니다. 사이보펑크 환경 또는 도시에 떠다니는 고래 등도 무리 없이 생성해줍니다.
프롬프트 예시 1. 사이보그 로봇
Prompt: The story of a robot’s life in a cyberpunk setting.
프롬프트 예시 2. 물에 잠긴 뉴욕 거리를 헤엄치는 상어
Prompt: New York City submerged like Atlantis. Fish, whales, sea turtles and sharks swim through the streets of New York.
프롬프트 예시 3. 클라우드맨이 지구를 향해 번개를 쏘는 장면
Prompt: A giant, towering cloud in the shape of a man looms over the earth. The cloud man shoots lighting bolts down to the earth.
Sora 기술적 분석
OpenAI는 공식 웹사이트의 기술 보고서(Technical Report)를 통해 Sora의 다양한 모델 훈련 과정을 공개했습니다.
어떤 훈련 과정을 통해 영상을 만드는지 자세히 알아봅시다.
Sora의 앞선 모델인 OpenAI의 ChatGPT는 사용자가 요청한 텍스트를 토큰(단어 단위)으로 나눠 이를 분석하고 학습하여 사용자 요청에 맞는 최적화된 답변을 제시합니다.
OpenAI는 ChatGPT의 성공을 기반으로 이 토큰 기능을 Sora로 확장하였습니다.
시각적 데이터를 패치로 변환
대규모 언어 모델(Large Language Model, LLM)에는 텍스트 토큰이 있는 반면에 Sora에는 패치가 있습니다.
여기서 말하는 패치란 위에서 언급한 토큰과 마찬가지로 아래 이미지와 같이 비디오나 이미지에 나타나는 시각적 요소를 아주 작은 단위로 쪼갠 것을 말합니다.
위 그림의 오른쪽 끝에 모양과 같이 특정 영상을 먼저 패치로 나누어 시각적, 공간적으로 압축하여 영상을 분석하고 학습합니다.
패치를 통해 Sora는 다양한 해상도와 영상 시간, 종횡비 등의 이미지 또는 비디오를 만들 수 있습니다.
또한 압축된 패치에서 분석하고 학습하니 생성 속도가 증가하여 효율이 상승하고 중요한 정보들을 추려서 비디오 품질을 향상 시킬 수 있습니다.
이렇게 압축된 패치에서 학습하고 분석한 후 비디오를 다시 생성합니다.
영상 품질 향상
Sora는 확산 변환기(diffusion transformer) 모델을 기반으로 작동합니다.
확산 변환기(diffusion transformer)이란?
확산 변환기(diffusion transformer) 모델은 확산 모델(diffusion model)과 변환기 모델(transformer model)의 개념을 결합한 새로운 형태의 인공 지능 모델입니다.
이 모델은 이미지, 비디오 생성 및 다른 복잡한 데이터 생성 작업에 사용됩니다.
각각의 모델을 간단히 설명하면 다음과 같습니다.
- 확산 모델(Diffusion Models): 확산 모델은 데이터 생성 과정에서 점진적으로 잡음을 제거하는 방식으로 작동합니다. 이 모델은 초기 잡음이 가득 찬 데이터에서 시작하여 점차적으로 원본 데이터로 복원하는 단계를 반복함으로써 고품질의 데이터를 생성합니다.
- 변환기(Transformer Models): 변환기는 주로 자연어 처리(NLP) 분야에서 큰 성공을 거둔 모델 구조로, 입력 데이터의 다양한 부분 사이의 관계를 학습합니다. 변환기는 입력된 텍스트의 어떤 부분이 출력에 가장 중요한지를 결정하여, 문맥을 더 잘 이해하고 예측하는 데 도움을 줍니다.
확산 변환기 모델은 이 두 가지 접근 방식의 장점을 결합하여, 특히 시간적 순서를 가진 데이터나 복잡한 패턴을 가진 데이터의 생성에 탁월한 성능을 보입니다.
예를 들어, 비디오 생성에서는 비디오의 각 프레임 사이의 복잡한 관계와 시간적 연속성을 모델링해야 하는데, 확산 변환기는 이러한 요구사항을 충족시키는 데 매우 적합합니다.
변환기의 입력 데이터의 다양한 부분의 관계를 학습하는 메커니즘은 영상 프레임 간의 관계를 학습하는 데 유용하며, 확산 모델의 점진적인 잡음 제거 과정은 고품질의 비디오 프레임을 생성하는 데 도움을 줍니다.
확산 변환기 모델을 기반으로 작동하는 Sora는 아래 이미지와 같이 입력된 잡음이 섞인 패치들(그리고 텍스트 프롬프트와 같은 조건 정보)을 받아 원래의 “깨끗한” 패치들을 예측하도록 훈련됩니다.
훈련 계산이 증가함에 따라 샘플의 질이 현저하게 향상되는 것을 볼 수 있습니다.
훈련이 진행됨에 따라 고정된 씨드와 입력을 가진 비디오 샘플을 아래 비교 영상을 통해 확인해 볼 수 있습니다.
오른쪽으로 가면 갈수록 즉, 훈련(연산)이 진행되면 진행될수록 잡음이 섞인 패치들이 제거되고 깨끗하고 품질 좋은 영상이 완성됩니다.
가변 지속 시간, 해상도, 종횡비 유연성과 개선
Sora는 와이드스크린 사이즈 1920x1080p, 세로 1080×1920 비디오로 샘플링할 수 있습니다.
이 사이즈 안에서 Sora는 다양한 크기의 콘테츠를 빠르게 생성할 수 있습니다.
일반적인 동영상 편집 프로그램은 이미지의 크기를 줄이거나 키우면 해당 영상을 자르거나 영상이 깨지기 쉬운데 Sora는 영상은 그대로 유지하고 사이즈만 원하는 크기로 줄일 수 있습니다.
아래 예시처럼 첫 번째 영상은 부분적으로 잘린 영상으로 편집되었지만 Sora는 영상은 유지하고 사이즈만 줄이는 효과를 가져옵니다.
Sora의 추가적인 기능
Sora는 다양한 이미지 및 비디오 편집 작업을 수행할 수 있습니다.
정적 이미지를 애니메이션화, 특정 시점의 비디오의 앞 뒤 상황을 확장한 영상 등 다양한 기능이 제공됩니다.
이미지 애니매이션화
Sora는 입력으로 텍스트와 이미지가 주어지면 비디오를 생성할 수 있습니다.
OpenAI 에서 제공한 예시로 살펴보겠습니다. 다음과 같이 이미지와 프롬프트를 작성하면 오른쪽 영상을 생성할 수 있습니다.
프롬프트: In an ornate, historical hall, a massive tidal wave peaks and begins to crash. Two surfers, seizing the moment, skillfully navigate the face of the wave.
비디오 확장 기능, 다양한 시점에서의 처리
아래 OpenAI에서 제공한 영상처럼 하나의 영상에서 시간을 뒤로 돌려 영상을 확장할 수 있습니다. 또한 시간을 앞으로 돌려 미래로 확장할 수도 있습니다.
아래 예시는 10초부터 20초까지만 있는 영상을 제공하고 과거 10초 이전의 영상을 제작해 달라고 한 것입니다.
10초 이전까지는 세 영상이 모두 다르게 나오고 10초 이후부터는 결말이 모두 같은 것을 확인할 수 있습니다.
이 방법을 활용하여 과거 및 미래로 확장하여 비디오를 무한 루프에 빠지게 할 수 있습니다.
텍스트로 비디오 편집하기
Sora는 기존 비디오를 편집하는 기능도 제공합니다.
아래 예시 영상과 같이 왼쪽 영상이 Sora 에게 제공한 영상이고 이 영상을 “밀림에 들어가는 설정”을 텍스트로 입력한 것입니다.
2개 이상의 비디오 연결
Sora는 2개 이상의 비디오를 입력 받아 하나의 영상으로 자연스럽게 전환하는 영상을 만들 수 있습니다.
아래 OpenAI에서 제공한 아래 예시 영상처럼 제공한 영상 첫 번째, 세 번째 사이에 자연스럽게 전환되는 두 번째 영상을 만들 수 있습니다.
SORA 영상 제작의 단점
복잡한 물리학적 상호작용이나 원인과 결과의 정확한 시뮬레이션 구현에는 오류가 있을 수 있습니다.
예를 들어, 쿠키를 베어 물었을 때 나타나야 할 물린 자국이 없는 경우나, 시간에 따른 이벤트 처리에 오류가 발생할 수 있습니다.
프롬프트 예시 1. 달리는 장면과, 발자국 소리와의 차이
Prompt: Step-printing scene of a person running, cinematic film shot in 35mm.
프롬프트 예시 2. 많은 개체가 있는 장면에서는 동물이나 사람이 부자연스럽게 나타날 수 있습니다.
Prompt: Five gray wolf pups frolicking and chasing each other around a remote gravel road, surrounded by grass. The pups run and leap, chasing each other, and nipping at each other, playing.
Openai Sora 출시일
현재 Sora는 일부 전문가들에게만 공개되어 사용되고 있습니다.
대중에게 공개되는 출시일은 아직 미정입니다.
Openai Sora 가격
Openai의 chatGPT처럼 유료 구독료를 통한 Sora 모델을 사용할 것으로 예상됩미다.
가격은 chatGPT 4.0 모델의 구독료인 20달러와 비슷하거나 더 비쌀 것으로 예상합니다.
Sora 영상 제작 주의사항
극단적인 폭력, 성적인 콘텐츠, 혐오스러운 이미지, 유명인 초상 또는 타인의 IP를 요청하는 것과 같이 openai의 사용 정책을 위반하는 텍스트 입력 프롬프트를 확인하고 거부합니다.
또한 생성된 모든 비디오의 프레임을 검토하여 사용자에게 표시되기 전에 사용 정책을 준수하는지 확인합니다.
Sora 사용
잘못된 사용이나 혐오 컨텐츠 생성을 방지하기 위해, 현재는 크리에이티브 전문가들에게만 접근 권한을 제한하며 피드백을 받고 있습니다.
SORA의 등장은 영상 제작, 광고, 방송 등 다양한 산업에 혁명을 가져올 것으로 예상됩니다. 이 기술은 제작 비용을 대폭 줄이면서도, 더욱 창의적이고 다양한 콘텐츠를 가능하게 할 것입니다.
하지만 동시에, 기존의 콘텐츠 제작자들에게는 적응과 변화의 도전을 안겨줄 것입니다. 이처럼 SORA는 영상 산업의 미래를 재정의하며, 우리가 콘텐츠를 소비하는 방식에 근본적인 변화를 가져올 것으로 기대됩니다.
Sora 추가 영상 확인
최근 OpenAI Sora Team은 트위터를 통하여 OpenAI Sora로 제작된 영상을 추가 공개하였습니다.
제작된 영상을 보시면 적은 프롬프트 입력만으로도 퀄리티 높은 영상이 제작된 것을 확인하실 수 있습니다.
다만, AI 이미지 생성 도구에서 이슈된 사람 손가락 6개 등의 버그는 Sora 영상에서도 확인하실 수 있습니다.
자세한 내용은 아래 링크 글을 확인하시기 바랍니다.
Sora로 제작한 세계 최초 뮤직비디오 공개
OpenAI의 Sora로 제작된 뮤직비디오가 공개되었습니다. Sora로 만든 세계 최초 뮤직비디오입니다.
바로 Paul Trillo 감독이 만든 Washed Out의 “The Hardest Part”입니다. 더 자세한 사항은 아래 링크의 글을 통해 확인해 보시기 바랍니다.