text-to-video-ms-1.7b-legacy开源模型 - 输入英文文本免费生成匹配视频

首页

Text To Video Ms 1.7b Legacy

由 ali-vilab 开发

基于多阶段文本生成视频扩散模型，输入英文描述文本即可生成符合描述的视频

文本生成视频 #英文文本生成视频 #多阶段扩散模型 #动态场景生成

下载量 133

发布时间 : 3/22/2023

模型简介

本模型由文本特征提取模型、文本特征到视频潜空间扩散模型、视频潜空间到视频视觉空间模型组成，采用UNet3D结构，通过迭代去噪实现视频生成

模型特点

多阶段生成架构

采用文本特征提取、潜空间扩散和视觉空间转换三阶段架构

长视频生成能力

通过内存优化技术可生成最长25秒的视频

高质量视频生成

能够生成符合文本描述的连贯视频内容

模型能力

文本生成视频

英文文本理解

动态场景生成

使用案例

创意内容生成

虚构场景生成

根据想象场景生成视频，如宇航员骑马

生成符合描述的动态视频

角色动作生成

为特定角色生成动作视频，如蜘蛛侠冲浪

生成角色执行指定动作的视频

教育演示

概念可视化

将抽象概念转化为可视化视频

🚀 开放领域文本到视频合成模型

本模型基于多阶段文本到视频生成扩散模型，输入一段描述文本，即可返回与文本描述相匹配的视频。目前仅支持英文输入。

🚀 快速开始

安装依赖库

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

生成视频

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b-legacy", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

✨ 主要特性

广泛的应用场景：该模型应用广泛，能够根据任意英文文本描述进行推理并生成视频。
多阶段扩散模型：基于多阶段文本到视频生成扩散模型，由文本特征提取模型、文本特征到视频潜在空间扩散模型以及视频潜在空间到视频视觉空间模型三个子网络组成。

📦 安装指南

安装所需的库：

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

💻 使用示例

基础用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b-legacy", torch_dtype=torch.float16)
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高级用法

通过启用注意力和VAE切片并使用Torch 2.0来优化内存使用，可在小于16GB的GPU显存上生成长达25秒的视频。

$ pip install diffusers transformers accelerate transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加载管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 转换为视频
video_path = export_to_video(video_frames)

📚 详细文档

模型描述

文本到视频生成扩散模型由三个子网络组成：文本特征提取模型、文本特征到视频潜在空间扩散模型以及视频潜在空间到视频视觉空间模型。整体模型参数约17亿。目前仅支持英文输入。扩散模型采用UNet3D结构，通过从纯高斯噪声视频的迭代去噪过程实现视频生成。

本模型仅用于研究目的，请查看模型局限性和偏差及滥用、恶意使用和过度使用部分。

模型详情

属性	详情
开发者	ModelScope
模型类型	基于扩散的文本到视频生成模型
语言	英文
许可证	CC - BY - NC - ND
更多信息资源	ModelScope GitHub仓库，摘要
引用方式	暂无