비두(Vidu) 사용법, 중국판 'Sora' AI 영상 생성 기술 소개

오픈AI의 텍스트-투-비디오(Text-To-Video) 모델인 ‘소라(Sora)‘에 버금가는 새로운 영상 생성 기술이 중국에서 등장했습니다. ‘셍슈 테크놀로지(ShengShu Technology)‘와 칭화대학이 협력하여 개발한 이 기술은, 간단한 텍스트 입력만으로 최대 16초 길이의 고품질 1080p 비디오를 생성할 수 있는 능력을 갖추고 있습니다.

비두(Vidu) AI 영상 소개

먼저 비두(Vidu)로 제작된 영상을 감상해 보시겠습니다.

16초 이하의 짧은 영상이지만 AI로 만든 영상이라고 믿어지지 않을 만큼 자연스럽고 해상도가 좋습니다.

더 많은 영상은 셍슈AI 공식 웹사이트에서 확인하실 수 있습니다.

셍슈 AI 공식 웹사이트 바로가기

비두(Vidu) 중국의 AI 영상 생성 기술 도약

홍콩의 ‘사우스차이나모닝포스트(SCMP)’를 비롯한 여러 외신의 보도에 따르면, ‘비두(Vidu)’라는 이 AI 모델은 강력한 비디오 생성 능력을 자랑합니다. 중국 언론은 이를 openai의 sora 급의 영상 생성 모델로 평가하고 있으며, 해당 기술은 최근 중관춘 포럼에서 공개되었습니다.

주 준(Zhu Jun), 칭화대 AI 연구소 부원장 겸 셍슈 테크놀로지의 수석 과학자는 “비두는 독자적인 혁신을 바탕으로 다양한 분야에서 혁신적인 발전을 이루었다”고 평가하며, “이 모델은 상상력이 풍부한 일관된 캐릭터를 포함한 16초짜리 비디오를 제작할 수 있다”고 설명했습니다.

비두(Vidu) 사용법, 중국판 'Sora' AI 영상 생성 기술 소개 — 셍츄 테크놀로지 공식 웹사이트

비두 기술 소개

비두 모델은 ‘유빗(U-ViT)‘이라는 아키텍처를 사용합니다. 이는 디퓨전 기술과 트랜스포머 기술을 결합한 것으로, 오픈AI의 소라 모델과 유사한 기술적 구조를 가지고 있습니다.

이 아키텍처는 특히 중국 문화적 요소가 반영된 AI 학습 데이터를 통해 독창적인 비디오 콘텐츠를 생성할 수 있는 능력을 보여줍니다.

모델 시연에서는 풀밭에 앉아 기타를 연주하는 팬더, 수영장에서 수영하는 강아지 등의 다양한 데모 클립이 선보여 관객들의 큰 관심을 받았습니다.

기술적 한계와 발전 가능성

현재 비두 모델은 최대 1분 길이의 비디오를 생성하는 소라 모델에 비해 짧은 16초 길이의 비디오만을 제작할 수 있습니다. 그럼에도 불구하고 영상 품질은 상당히 높은 수준을 유지하고 있으며, 기술의 지속적 고도화를 위해서는 더 많은 컴퓨팅 자원의 투입이 필요하다는 평가가 나오고 있습니다.

2023년 3월에 설립된 셍슈 테크놀로지는 칭화대 AI 연구소의 연구진과 알리바바, 텐센트, 바이트댄스 등의 기업 인력이 함께 구성된 팀으로, 이들은 중국 내 AI 기술 발전의 선두주자로 자리매김하고 있습니다.

이번 비두 모델의 등장은 글로벌 AI 영상 생성 기술 경쟁에 있어 중요한 이정표로 평가되며, 향후 이 분야에서의 기술적 진보가 더욱 기대됩니다.