text-to-video-ms-1.7b-legacy開源模型 - 輸入英文文本免費生成匹配視頻

首頁

Text To Video Ms 1.7b Legacy

由ali-vilab開發

基於多階段文本生成視頻擴散模型，輸入英文描述文本即可生成符合描述的視頻

文本生成視頻 #英文文本生成視頻 #多階段擴散模型 #動態場景生成

下載量 133

發布時間 : 3/22/2023

模型概述

本模型由文本特徵提取模型、文本特徵到視頻潛空間擴散模型、視頻潛空間到視頻視覺空間模型組成，採用UNet3D結構，通過迭代去噪實現視頻生成

模型特點

多階段生成架構

採用文本特徵提取、潛空間擴散和視覺空間轉換三階段架構

長視頻生成能力

通過內存優化技術可生成最長25秒的視頻

高質量視頻生成

能夠生成符合文本描述的連貫視頻內容

模型能力

文本生成視頻

英文文本理解

動態場景生成

使用案例

創意內容生成

虛構場景生成

根據想象場景生成視頻，如宇航員騎馬

生成符合描述的動態視頻

角色動作生成

為特定角色生成動作視頻，如蜘蛛俠衝浪

生成角色執行指定動作的視頻

教育演示

概念可視化

將抽象概念轉化為可視化視頻

🚀 開放領域文本到視頻合成模型

本模型基於多階段文本到視頻生成擴散模型，輸入一段描述文本，即可返回與文本描述相匹配的視頻。目前僅支持英文輸入。

🚀 快速開始

安裝依賴庫

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

生成視頻

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b-legacy", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

✨ 主要特性

廣泛的應用場景：該模型應用廣泛，能夠根據任意英文文本描述進行推理並生成視頻。
多階段擴散模型：基於多階段文本到視頻生成擴散模型，由文本特徵提取模型、文本特徵到視頻潛在空間擴散模型以及視頻潛在空間到視頻視覺空間模型三個子網絡組成。

📦 安裝指南

安裝所需的庫：

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b-legacy", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高級用法

通過啟用注意力和VAE切片並使用Torch 2.0來優化內存使用，可在小於16GB的GPU顯存上生成長達25秒的視頻。

$ pip install diffusers transformers accelerate transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加載管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 轉換為視頻
video_path = export_to_video(video_frames)

📚 詳細文檔

模型描述

文本到視頻生成擴散模型由三個子網絡組成：文本特徵提取模型、文本特徵到視頻潛在空間擴散模型以及視頻潛在空間到視頻視覺空間模型。整體模型參數約17億。目前僅支持英文輸入。擴散模型採用UNet3D結構，通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成。

本模型僅用於研究目的，請查看模型侷限性和偏差及濫用、惡意使用和過度使用部分。

模型詳情

屬性	詳情
開發者	ModelScope
模型類型	基於擴散的文本到視頻生成模型
語言	英文
許可證	CC - BY - NC - ND
更多信息資源	ModelScope GitHub倉庫，摘要
引用方式	暫無