Vid
模型概述
該模型通過文本特徵提取、擴散模型和視頻空間轉換三個子網絡實現文本到視頻的生成,參數量約17億
模型特點
多階段生成架構
包含文本特徵提取、視頻隱空間擴散和視覺空間轉換三個子網絡
長視頻生成支持
通過注意力機制和VAE切片技術可生成最長25秒的視頻
顯存優化
支持模型CPU卸載和VAE切片,可在16GB GPU上運行
模型能力
英文文本到視頻生成
動態場景合成
多對象組合生成
使用案例
創意內容生成
虛構場景生成
生成現實中不存在的虛構場景視頻,如宇航員騎馬
可生成流暢的虛構動作視頻
角色動作模擬
為特定角色生成指定動作視頻,如蜘蛛俠衝浪
能保持角色特徵的同時完成指定動作
概念可視化
抽象概念可視化
將抽象文本描述轉化為直觀視頻
生成符合文本描述的視頻內容
🚀 開放域文本到視頻合成模型
本模型基於多階段文本到視頻生成擴散模型,輸入一段描述文本,即可返回與文本描述相匹配的視頻。目前僅支持英文輸入。
我們正在招聘!(工作地點:中國北京/杭州)
如果你正在尋找一個充滿挑戰的機會,渴望在AIGC和大規模預訓練領域運用前沿技術,那麼我們就是你的理想之選。我們正在尋找有才華、有動力且富有創造力的人才加入我們的團隊。如果您感興趣,請將簡歷發送給我們。
郵箱:yingya.zyy@alibaba-inc.com
🚀 快速開始
安裝依賴庫
$ pip install diffusers transformers accelerate torch
生成視頻
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
長視頻生成
你可以通過啟用注意力和VAE切片並使用Torch 2.0來優化內存使用。這應該可以讓你在小於16GB的GPU顯存上生成長達25秒的視頻。
$ pip install git+https://github.com/huggingface/diffusers transformers accelerate
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
# 加載模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
# 轉換為視頻
video_path = export_to_video(video_frames)
查看結果
上述代碼將顯示輸出視頻的保存路徑,當前編碼格式可以使用 VLC播放器 播放。輸出的mp4文件可以通過 VLC媒體播放器 查看,其他一些媒體播放器可能無法正常查看。
✨ 主要特性
- 本模型基於多階段文本到視頻生成擴散模型,輸入描述文本可返回匹配的視頻。
- 模型具有廣泛的應用場景,能夠根據任意英文文本描述進行推理並生成視頻。
📦 安裝指南
$ pip install diffusers transformers accelerate torch
💻 使用示例
基礎用法
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()
prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)
高級用法
import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video
# 加載模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()
# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames
# 轉換為視頻
video_path = export_to_video(video_frames)
📚 詳細文檔
模型描述
文本到視頻生成擴散模型由三個子網絡組成:文本特徵提取模型、文本特徵到視頻潛在空間擴散模型以及視頻潛在空間到視頻視覺空間模型。整體模型參數約為17億。目前,該模型僅支持英文輸入。擴散模型採用UNet3D結構,通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成。
本模型僅用於研究目的,請查看 模型侷限性、偏差和誤用、惡意使用和過度使用 部分。
模型詳情
屬性 | 詳情 |
---|---|
開發者 | ModelScope |
模型類型 | 基於擴散的文本到視頻生成模型 |
支持語言 | 英語 |
許可證 | CC - BY - NC - ND |
更多信息資源 | ModelScope GitHub倉庫,摘要 |
引用方式 | 見下方Citation部分 |
使用場景
本模型具有廣泛的應用場景,能夠根據任意英文文本描述進行推理並生成視頻。
模型侷限性和偏差
- 該模型基於Webvid等公共數據集進行訓練,生成結果可能與訓練數據的分佈存在偏差。
- 此模型無法實現完美的影視級質量生成。
- 模型無法生成清晰的文本。
- 該模型主要使用英文語料進行訓練,目前不支持其他語言。
- 該模型在複雜構圖生成任務上的性能有待提高。
誤用、惡意使用和過度使用
- 該模型並非用於真實地呈現人物或事件,因此使用它生成此類內容超出了模型的能力範圍。
- 禁止生成對人或其環境、文化、宗教等有貶低或有害的內容。
- 禁止用於色情、暴力和血腥內容的生成。
- 禁止用於錯誤和虛假信息的生成。
訓練數據
訓練數據包括 LAION5B、ImageNet、Webvid 等公共數據集。在預訓練後,會進行圖像和視頻過濾,如美學評分、水印評分和去重等操作。
引用
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 許可證
本模型使用 CC - BY - NC - ND 許可證。
Xclip Base Patch32
MIT
X-CLIP是CLIP的擴展版本,用於通用視頻語言理解,通過對比學習在(視頻,文本)對上訓練,適用於視頻分類和視頻-文本檢索等任務。
文本生成視頻
Transformers 英語

X
microsoft
309.80k
84
LTX Video
其他
首個基於DiT的視頻生成模型,能夠即時生成高質量視頻,支持文本轉視頻和圖像+文本轉視頻兩種場景。
文本生成視頻 英語
L
Lightricks
165.42k
1,174
Wan2.1 14B VACE GGUF
Apache-2.0
Wan2.1-VACE-14B模型的GGUF格式版本,主要用於文本到視頻的生成任務。
文本生成視頻
W
QuantStack
146.36k
139
Animatediff Lightning
Openrail
極速文本生成視頻模型,生成速度比原版AnimateDiff快十倍以上
文本生成視頻
A
ByteDance
144.00k
925
V Express
V-Express是一個基於音頻和麵部關鍵點條件生成的視頻生成模型,能夠將音頻輸入轉換為動態視頻輸出。
文本生成視頻 英語
V
tk93
118.36k
85
Cogvideox 5b
其他
CogVideoX是源自清影的視頻生成模型的開源版本,提供高質量的視頻生成能力。
文本生成視頻 英語
C
THUDM
92.32k
611
Llava NeXT Video 7B Hf
LLaVA-NeXT-Video是一個開源多模態聊天機器人,通過視頻和圖像數據混合訓練獲得優秀的視頻理解能力,在VideoMME基準上達到開源模型SOTA水平。
文本生成視頻
Transformers 英語

L
llava-hf
65.95k
88
Wan2.1 T2V 14B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,旨在突破視頻生成的邊界,支持中英文文本生成視頻、圖像生成視頻等多種任務。
文本生成視頻 支持多種語言
W
Wan-AI
48.65k
24
Wan2.1 T2V 1.3B Diffusers
Apache-2.0
萬2.1是一套全面開放的視頻基礎模型,具備頂尖性能、支持消費級GPU、多任務支持、視覺文本生成和高效視頻VAE等特點。
文本生成視頻 支持多種語言
W
Wan-AI
45.29k
38
Wan2.1 T2V 14B
Apache-2.0
萬2.1是一套綜合性開源視頻基礎模型,具備文本生成視頻、圖像生成視頻、視頻編輯、文本生成圖像及視頻生成音頻等多任務能力,支持中英雙語文本生成。
文本生成視頻 支持多種語言
W
Wan-AI
44.88k
1,238
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98