vid開源視頻生成系統 - 免費根據英文描述創作對應視頻內容

首頁

Vid

由AVIIAX開發

基於擴散模型的多階段文本到視頻生成系統，可根據英文描述生成相應視頻內容

文本生成視頻 #英文文本生成視頻 #多階段擴散模型 #長視頻生成優化

下載量 479

發布時間 : 11/2/2023

模型概述

該模型通過文本特徵提取、擴散模型和視頻空間轉換三個子網絡實現文本到視頻的生成，參數量約17億

模型特點

多階段生成架構

包含文本特徵提取、視頻隱空間擴散和視覺空間轉換三個子網絡

長視頻生成支持

通過注意力機制和VAE切片技術可生成最長25秒的視頻

顯存優化

支持模型CPU卸載和VAE切片，可在16GB GPU上運行

模型能力

英文文本到視頻生成

動態場景合成

多對象組合生成

使用案例

創意內容生成

虛構場景生成

生成現實中不存在的虛構場景視頻，如宇航員騎馬

可生成流暢的虛構動作視頻

角色動作模擬

為特定角色生成指定動作視頻，如蜘蛛俠衝浪

能保持角色特徵的同時完成指定動作

概念可視化

抽象概念可視化

將抽象文本描述轉化為直觀視頻

生成符合文本描述的視頻內容

🚀 開放域文本到視頻合成模型

本模型基於多階段文本到視頻生成擴散模型，輸入一段描述文本，即可返回與文本描述相匹配的視頻。目前僅支持英文輸入。

我們正在招聘！（工作地點：中國北京/杭州）

如果你正在尋找一個充滿挑戰的機會，渴望在AIGC和大規模預訓練領域運用前沿技術，那麼我們就是你的理想之選。我們正在尋找有才華、有動力且富有創造力的人才加入我們的團隊。如果您感興趣，請將簡歷發送給我們。

郵箱：yingya.zyy@alibaba-inc.com

🚀 快速開始

安裝依賴庫

$ pip install diffusers transformers accelerate torch

生成視頻

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

長視頻生成

你可以通過啟用注意力和VAE切片並使用Torch 2.0來優化內存使用。這應該可以讓你在小於16GB的GPU顯存上生成長達25秒的視頻。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加載模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 轉換為視頻
video_path = export_to_video(video_frames)

查看結果

上述代碼將顯示輸出視頻的保存路徑，當前編碼格式可以使用 VLC播放器播放。輸出的mp4文件可以通過 VLC媒體播放器查看，其他一些媒體播放器可能無法正常查看。

✨ 主要特性

本模型基於多階段文本到視頻生成擴散模型，輸入描述文本可返回匹配的視頻。
模型具有廣泛的應用場景，能夠根據任意英文文本描述進行推理並生成視頻。

📦 安裝指南

$ pip install diffusers transformers accelerate torch

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高級用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加載模型管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 轉換為視頻
video_path = export_to_video(video_frames)

📚 詳細文檔

模型描述

文本到視頻生成擴散模型由三個子網絡組成：文本特徵提取模型、文本特徵到視頻潛在空間擴散模型以及視頻潛在空間到視頻視覺空間模型。整體模型參數約為17億。目前，該模型僅支持英文輸入。擴散模型採用UNet3D結構，通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成。

本模型僅用於研究目的，請查看模型侷限性、偏差和誤用、惡意使用和過度使用部分。

模型詳情

屬性	詳情
開發者	ModelScope
模型類型	基於擴散的文本到視頻生成模型
支持語言	英語
許可證	CC - BY - NC - ND
更多信息資源	ModelScope GitHub倉庫，摘要
引用方式	見下方Citation部分

使用場景

本模型具有廣泛的應用場景，能夠根據任意英文文本描述進行推理並生成視頻。

模型侷限性和偏差

該模型基於Webvid等公共數據集進行訓練，生成結果可能與訓練數據的分佈存在偏差。
此模型無法實現完美的影視級質量生成。
模型無法生成清晰的文本。
該模型主要使用英文語料進行訓練，目前不支持其他語言。
該模型在複雜構圖生成任務上的性能有待提高。

誤用、惡意使用和過度使用

該模型並非用於真實地呈現人物或事件，因此使用它生成此類內容超出了模型的能力範圍。
禁止生成對人或其環境、文化、宗教等有貶低或有害的內容。
禁止用於色情、暴力和血腥內容的生成。
禁止用於錯誤和虛假信息的生成。

訓練數據

訓練數據包括 LAION5B、ImageNet、Webvid 等公共數據集。在預訓練後，會進行圖像和視頻過濾，如美學評分、水印評分和去重等操作。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }