Site icon GuideAct

알리바바 EMO AI 모델로 말하고 노래하는 인물 영상 만드는 기술 소개

알리바바 EMO AI 모델로 말하고 노래하는 인물 영상 만드는 기술 소개 1

알리바바 그룹의 지능형 컴퓨팅 연구소에서 선보인 EMO AI는 단순한 이미지 변환을 넘어, 사진과 오디오 파일을 결합하여 말하고 노래하는 인물의 영상을 생성하는 혁신적인 기술입니다. 이 글에서는 EMO AI의 작동 원리부터 사용 방법, 놀라운 영상 샘플들까지 EMO AI의 모든 것을 소개합니다.

EMO의 작동 원리

EMO AI 모델은 사용자가 제공한 사진과 오디오를 기반으로 인물이 말하거나 노래하는 영상을 생성합니다.

이 과정에서 생성된 인물의 표정은 매우 풍부하며, 말하는 내용과 입 모양이 자연스러운 일치를 보입니다.

https://humanaigc.github.io/emote-portrait-alive/content/video/16%E6%AF%949%E8%A7%86%E9%A2%91%E7%BB%93%E6%9E%9C/talk_sora.mp4

EMO AI는 오디오 입력과 참조 이미지를 기반으로 한 인물의 얼굴 이미지를 생성하는 AI 기반 프레임워크입니다.

Frames Encoding

Diffusion Process

Attention 메커니즘

EMO AI 사용하기

EMO 모델은 현재 깃허브를 통해 공개되었으며, 모델의 개선과 안정성 확보를 위한 추가적인 테스트가 필요합니다.

관심 있는 이용자들은 깃허브의 공식 문서를 통해 모델에 대한 더 많은 정보를 얻을 수 있습니다.

EMO AI 의 놀라운 영상 샘플들

EMO를 통해 생성된 영상 샘플입니다.

오드리 햅번의 사진과 Ed Sheeran의 “Perfect”를 결합한 영상

https://humanaigc.github.io/emote-portrait-alive/content/video/%E8%B5%AB%E6%9C%AC16_9.mp4

모나리자와 Miley Cyrus의 “Flowers”를 합친 영상

https://humanaigc.github.io/emote-portrait-alive/content/video/16%E6%AF%949%E8%A7%86%E9%A2%91%E7%BB%93%E6%9E%9C/song_mola.mp4

과거의 인물 사진과 오디오의 결합

https://humanaigc.github.io/emote-portrait-alive/content/video/16%E6%AF%949%E8%A7%86%E9%A2%91%E7%BB%93%E6%9E%9C/song_zgr.mp4

빠른 언어 구사 능력

https://humanaigc.github.io/emote-portrait-alive/content/video/16%E6%AF%949%E8%A7%86%E9%A2%91%E7%BB%93%E6%9E%9C/song_god.mp4
https://humanaigc.github.io/emote-portrait-alive/content/video/16%E6%AF%949%E8%A7%86%E9%A2%91%E7%BB%93%E6%9E%9C/song_cxk.mp4

다양한 AI 모델의 공개

알리바바 그룹은 EMO 외에도 Animate Anyone 모델과 같이 이미지 속 인물이나 캐릭터를 춤추게 하는 기술을 개발하고 있습니다.

더 많은 EMO 영상을 원하시나요?

EMO로 생성된 더 많은 영상을 보고 싶다면, 알리바바 그룹의 지능형 컴퓨팅 연구소 웹사이트를 확인해보세요. 이들 페이지에서는 EMO 모델을 통해 만들어진 다양하고 매혹적인 영상 샘플들을 제공합니다.

Exit mobile version