Vid
模型简介
该模型通过文本特征提取、扩散模型和视频空间转换三个子网络实现文本到视频的生成,参数量约17亿
模型特点
多阶段生成架构
包含文本特征提取、视频隐空间扩散和视觉空间转换三个子网络
长视频生成支持
通过注意力机制和VAE切片技术可生成最长25秒的视频
显存优化
支持模型CPU卸载和VAE切片,可在16GB GPU上运行
模型能力
英文文本到视频生成
动态场景合成
多对象组合生成
使用案例
创意内容生成
虚构场景生成
生成现实中不存在的虚构场景视频,如宇航员骑马
可生成流畅的虚构动作视频
角色动作模拟
为特定角色生成指定动作视频,如蜘蛛侠冲浪
能保持角色特征的同时完成指定动作
概念可视化
抽象概念可视化
将抽象文本描述转化为直观视频
生成符合文本描述的视频内容
🚀 开放域文本到视频合成模型
本模型基于多阶段文本到视频生成扩散模型,输入一段描述文本,即可返回与文本描述相匹配的视频。目前仅支持英文输入。
我们正在招聘!(工作地点:中国北京/杭州)
如果你正在寻找一个充满挑战的机会,渴望在AIGC和大规模预训练领域运用前沿技术,那么我们就是你的理想之选。我们正在寻找有才华、有动力且富有创造力的人才加入我们的团队。如果您感兴趣,请将简历发送给我们。
邮箱:yingya.zyy@alibaba-inc.com
🚀 快速开始
安装依赖库
$ pip install diffusers transformers accelerate torch
生成视频
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
长视频生成
你可以通过启用注意力和VAE切片并使用Torch 2.0来优化内存使用。这应该可以让你在小于16GB的GPU显存上生成长达25秒的视频。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
# 加载模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
# 转换为视频
video_path = export_to_video(video_frames)
查看结果
上述代码将显示输出视频的保存路径,当前编码格式可以使用 VLC播放器 播放。输出的mp4文件可以通过 VLC媒体播放器 查看,其他一些媒体播放器可能无法正常查看。
✨ 主要特性
- 本模型基于多阶段文本到视频生成扩散模型,输入描述文本可返回匹配的视频。
- 模型具有广泛的应用场景,能够根据任意英文文本描述进行推理并生成视频。
📦 安装指南
$ pip install diffusers transformers accelerate torch
💻 使用示例
基础用法
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
高级用法
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
# 加载模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# 优化GPU内存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
# 生成视频
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
# 转换为视频
video_path = export_to_video(video_frames)
📚 详细文档
模型描述
文本到视频生成扩散模型由三个子网络组成:文本特征提取模型、文本特征到视频潜在空间扩散模型以及视频潜在空间到视频视觉空间模型。整体模型参数约为17亿。目前,该模型仅支持英文输入。扩散模型采用UNet3D结构,通过从纯高斯噪声视频的迭代去噪过程实现视频生成。
本模型仅用于研究目的,请查看 模型局限性、偏差和误用、恶意使用和过度使用 部分。
模型详情
属性 | 详情 |
---|---|
开发者 | ModelScope |
模型类型 | 基于扩散的文本到视频生成模型 |
支持语言 | 英语 |
许可证 | CC - BY - NC - ND |
更多信息资源 | ModelScope GitHub仓库,摘要 |
引用方式 | 见下方Citation部分 |
使用场景
本模型具有广泛的应用场景,能够根据任意英文文本描述进行推理并生成视频。
模型局限性和偏差
- 该模型基于Webvid等公共数据集进行训练,生成结果可能与训练数据的分布存在偏差。
- 此模型无法实现完美的影视级质量生成。
- 模型无法生成清晰的文本。
- 该模型主要使用英文语料进行训练,目前不支持其他语言。
- 该模型在复杂构图生成任务上的性能有待提高。
误用、恶意使用和过度使用
- 该模型并非用于真实地呈现人物或事件,因此使用它生成此类内容超出了模型的能力范围。
- 禁止生成对人或其环境、文化、宗教等有贬低或有害的内容。
- 禁止用于色情、暴力和血腥内容的生成。
- 禁止用于错误和虚假信息的生成。
训练数据
训练数据包括 LAION5B、ImageNet、Webvid 等公共数据集。在预训练后,会进行图像和视频过滤,如美学评分、水印评分和去重等操作。
引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 许可证
本模型使用 CC - BY - NC - ND 许可证。
Xclip Base Patch32
MIT
X-CLIP是CLIP的扩展版本,用于通用视频语言理解,通过对比学习在(视频,文本)对上训练,适用于视频分类和视频-文本检索等任务。
文本生成视频
Transformers 英语

X
microsoft
309.80k
84
LTX Video
其他
首个基于DiT的视频生成模型,能够实时生成高质量视频,支持文本转视频和图像+文本转视频两种场景。
文本生成视频 英语
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用于文本到视频的生成任务。
文本生成视频
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
极速文本生成视频模型,生成速度比原版AnimateDiff快十倍以上
文本生成视频
A
ByteDance
144.00k
925
V Express
V-Express是一个基于音频和面部关键点条件生成的视频生成模型,能够将音频输入转换为动态视频输出。
文本生成视频 英语
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的视频生成模型的开源版本,提供高质量的视频生成能力。
文本生成视频 英语
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一个开源多模态聊天机器人,通过视频和图像数据混合训练获得优秀的视频理解能力,在VideoMME基准上达到开源模型SOTA水平。
文本生成视频
Transformers 英语

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,旨在突破视频生成的边界,支持中英文文本生成视频、图像生成视频等多种任务。
文本生成视频 支持多种语言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
万2.1是一套全面开放的视频基础模型,具备顶尖性能、支持消费级GPU、多任务支持、视觉文本生成和高效视频VAE等特点。
文本生成视频 支持多种语言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
万2.1是一套综合性开源视频基础模型,具备文本生成视频、图像生成视频、视频编辑、文本生成图像及视频生成音频等多任务能力,支持中英双语文本生成。
文本生成视频 支持多种语言
W
Wan-AI
44.88k
1,238
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98