본문 바로가기
Tech

스테이블 비디오 디퓨전: 보고도 믿기지 않은 비디오 생성 AI

by 생각소년 2023. 12. 1.

안녕하세요, 생각소년입니다.

 

오늘은 스태빌리티 AI에서 만든 스테이블 비디오 디퓨전이라는 독특한 AI 모델에 대해 소개해드리겠습니다. 이 모델은 텍스트나 이미지로부터 고해상도의 동영상을 생성할 수 있는 기술로, 오픈소스 및 상업적으로 사용가능한 소수의 비디오 생성모델 중 하나입니다. 스테이블 디퓨전이라는 이미지 생성형 AI를 만든 스태빌리티 AI에서 만든 비디오 생성 AI 는 어떤 특징을 가지고 있을까요?

 

스테이블 비디오 디퓨전

 

스테이블 비디오 디퓨전이란?

스테이블 비디오 디퓨전은 스태빌리티AI가 개발한 이미지 생성 AI인 스테이블 디퓨전을 기반으로 한 비디오 생성 AI 모델입니다. 스테이블 디퓨전은 텍스트로부터 이미지를 생성하는 기능을 제공하는데, 이를 확장하여 텍스트나 이미지로부터 동영상을 생성할 수 있도록 한 것입니다.

 

2023.04.20 - [Tech] - 스테이블 디퓨전이란? AI 이미지 생성의 혁신

 

스테이블 비디오 디퓨전은 현재 ‘연구 미리보기’ 단계에 있으며, 사용자는 특정 사용조건에 동의해야 사용할 수 있습니다.

 

스테이블 비디오 디퓨전은 SVD와 SVD-XT 두 가지 버전으로 제공되며, 각각 14 프레임과 24 프레임의 비디오를 생성할 수 있습니다.

 

스테이블 비디오 디퓨전의 학습 방법

스테이블 비디오 디퓨전은 총 3단계로 학습됩니다.

 

1단계는 텍스트로부터 이미지로의 사전 학습입니다.

이 단계에서는 텍스트와 이미지가 쌍으로 구성된 대규모 데이터 세트를 사용하여 텍스트에 해당하는 이미지를 생성하는 방법을 학습합니다.

 

2단계는 저해상도 동영상의 대규모 데이터 세트를 사용한 사전 학습입니다.

이 단계에서는 저해상도의 동영상을 입력으로 받아, 잠재 영상 확산 모델을 통해 고해상도의 동영상을 생성하는 방법을 학습합니다.

 

3단계는 고해상도 동영상의 소규모 데이터 세트를 사용한 동영상 미세 조정입니다.

이 단계에서는 고해상도의 동영상을 입력으로 받아, 잠재 영상 확산 모델을 통해 더욱 세밀하고 자연스러운 동영상을 생성하는 방법을 학습합니다.

 

스테이블 비디오 디퓨전의 장점

1. 텍스트나 이미지 기반으로 동영상 생성 가능

이는 기존의 비디오 생성모델들이 주로 동영상으로부터 동영상을 생성하는 방식과 차별화됩니다. 텍스트나 이미지로부터 동영상을 생성할 수 있다면, 사용자의 창의력을 더욱 발휘할 수 있을 것입니다.

 

예를 들어, 특정 인물의 사진과 함께 원하는 행동을 텍스트로 입력하면, 그 인물이 그 행동을 하는 동영상을 생성할 수 있습니다. 또는, 원하는 장면을 텍스트로 입력하면, 그 장면을 표현하는 동영상을 생성할 수 있습니다.

 

2. 고해상도의 동영상을 생성 가능

이는 기존의 비디오 생성모델들이 주로 저해상도의 동영상을 생성하는 것과 비교됩니다. 고해상도의 동영상을 생성할 수 있다면, 사용자의 만족도를 높일 수 있을 것입니다.

 

예를 들어, 특정 인물의 사진과 함께 원하는 행동을 텍스트로 입력하면, 그 인물이 그 행동을 하는 고화질의 동영상을 생성할 수 있습니다. 또는, 원하는 장면을 텍스트로 입력하면, 그 장면을 표현하는 고화질의 동영상을 생성할 수 있습니다.

 

스테이블 비디오 디퓨전의 단점

1. 생성된 비디오의 길이는 14프레임 또는 25 프레임으로 제한되어 있습니다. 이는 움직임을 제어하거나 다양한 장면을 표현하는 데 어려움을 겪을 수 있습니다.

 

2. 사람이나 사건을 사실적으로 표현하도록 학습되지 않았으므로, 이러한 콘텐츠를 생성하는 것은 이 모델의 능력 범위를 벗어나는 것입니다.

 

3. 코드가 실시간으로 업데이트되기 때문에 상당히 불안정할 수 있습니다. 접속이 안 될 수 있고, 기능들이 제대로 작동을 안 할 수 있습니다. 문제가 생기면 그때마다 대처해야 하는데, 이는 사용자의 편의성을 저하시킬 수 있습니다.

 

스테이블 비디오 디퓨전의 사용 예시

스테이블 비디오 디퓨전은 다양한 분야에서 활용될 수 있습니다.

 

특히 교육 분야에서는 텍스트로부터 동영상을 생성하여 학습자의 이해도를 높일 수 있습니다.

예를 들어, '태양계의 행성들은 태양을 중심으로 공전한다’라는 텍스트를 입력하면, 태양계의 행성들이 태양을 중심으로 공전하는 동영상을 생성할 수 있습니다. 또는, '물이 얼면 부피가 커진다’라는 텍스트를 입력하면, 물이 얼면 부피가 커지는 동영상을 생성할 수 있습니다.

 

미디어 분야에서는 이미지로부터 동영상을 생성하여 콘텐츠의 품질을 향상할 수 있습니다.

예를 들어, 영화나 드라마의 한 장면의 이미지와 함께 원하는 효과나 연출을 텍스트로 입력하면, 그 이미지에 맞는 동영상을 생성할 수 있습니다. 또는, 만화나 애니메이션의 한 장면의 이미지와 함께 원하는 표정이나 움직임을 텍스트로 입력하면, 그 이미지에 맞는 동영상을 생성할 수 있습니다.

 

마치며

스테이블 비디오 디퓨전은 스태빌리티AI에서 만든 독특한 AI 모델로, 텍스트나 이미지로부터 고해상도의 동영상을 생성할 수 있는 기술입니다.

 

이 모델은 오픈소스 및 상업적으로 사용가능한 소수의 비디오 생성모델 중 하나이며, 다양한 분야에서 활용될 수 있습니다. 스테이블 비디오 디퓨전은 아직 연구단계에 있으므로, 향후 더욱 발전하고 개선될 것으로 기대됩니다.

댓글