text-to-video-ms-1.7b開源模型 - 輸入英文文本即可免費生成對應視頻

首頁

Text To Video Ms 1.7b

由vdo開發

基於多階段文本生成視頻擴散模型架構，輸入英文描述文本可生成符合描述的視頻內容

文本生成視頻 #英文文本生成視頻 #多階段擴散模型 #開放域內容生成

下載量 55

發布時間 : 5/7/2023

模型概述

文本生成視頻擴散模型包含文本特徵提取、擴散模型和視頻生成三個子網絡，總參數量約17億，支持從文本描述生成動態視頻內容

模型特點

多階段生成架構

包含文本特徵提取、擴散模型和視頻生成三個子網絡，實現高質量視頻生成

長視頻生成能力

通過優化技術可在16GB顯存下生成最長25秒的視頻

開放域生成

支持任意英文文本描述的視頻生成，應用場景廣泛

模型能力

文本到視頻生成

開放域內容創作

動態場景合成

使用案例

創意內容生成

概念可視化

將抽象文本描述轉化為可視化視頻內容

生成符合文本描述的動態場景

教育演示

生成教學概念的可視化演示視頻

幫助理解複雜概念

娛樂內容創作

短視頻生成

根據創意文本生成短視頻內容

示例中展示了宇航員騎馬、達斯·維達衝浪等創意場景

🚀 開放域文本到視頻合成模型

本模型基於多階段文本到視頻生成擴散模型，輸入描述文本，即可返回與文本描述相匹配的視頻。目前僅支持英文輸入。

我們正在招聘！（工作地點：中國北京/杭州）

如果你正在尋找一個充滿挑戰的機會，渴望在AIGC和大規模預訓練領域運用前沿技術，那麼我們就是你的理想之選。我們正在尋找有才華、有動力且富有創造力的人才加入我們的團隊。如果您感興趣，請將簡歷發送給我們。

郵箱：yingya.zyy@alibaba-inc.com

✨ 主要特性

基於多階段文本到視頻生成擴散模型，輸入英文描述文本，輸出匹配的視頻。
模型由三個子網絡組成，整體模型參數約17億。
可根據任意英文文本描述進行推理和生成視頻。

📦 安裝指南

首先，安裝所需的庫：

$ pip install diffusers transformers accelerate

💻 使用示例

基礎用法

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)
pipe.enable_model_cpu_offload()

prompt = "Spiderman is surfing"
video_frames = pipe(prompt, num_inference_steps=25).frames
video_path = export_to_video(video_frames)

高級用法

如果你想生成較長的視頻，可以通過啟用注意力和VAE切片，並使用Torch 2.0來優化內存使用。這樣在小於16GB的GPU顯存上，你可以生成長達25秒的視頻。

$ pip install git+https://github.com/huggingface/diffusers transformers accelerate

import torch
from diffusers import DiffusionPipeline, DPMSolverMultistepScheduler
from diffusers.utils import export_to_video

# 加載管道
pipe = DiffusionPipeline.from_pretrained("damo-vilab/text-to-video-ms-1.7b", torch_dtype=torch.float16, variant="fp16")
pipe.scheduler = DPMSolverMultistepScheduler.from_config(pipe.scheduler.config)

# 優化GPU內存
pipe.enable_model_cpu_offload()
pipe.enable_vae_slicing()

# 生成視頻
prompt = "Spiderman is surfing. Darth Vader is also surfing and following Spiderman"
video_frames = pipe(prompt, num_inference_steps=25, num_frames=200).frames

# 轉換為視頻
video_path = export_to_video(video_frames)

📚 詳細文檔

模型描述

文本到視頻生成擴散模型由三個子網絡組成：文本特徵提取模型、文本特徵到視頻潛空間擴散模型以及視頻潛空間到視頻視覺空間模型。整體模型參數約為17億。目前，該模型僅支持英文輸入。擴散模型採用UNet3D結構，通過從純高斯噪聲視頻的迭代去噪過程實現視頻生成。

此模型僅用於研究目的。請查看模型限制、偏差和誤用、惡意使用和過度使用部分。

模型詳情

屬性	詳情
開發者	ModelScope
模型類型	基於擴散的文本到視頻生成模型
支持語言	英語
許可證	CC - BY - NC - ND
更多信息資源	ModelScope GitHub倉庫，概述

使用場景

該模型具有廣泛的應用場景，能夠根據任意英文文本描述進行推理並生成視頻。

查看結果

上述代碼會顯示輸出視頻的保存路徑，當前編碼格式可以使用VLC播放器播放。輸出的mp4文件可以使用VLC媒體播放器查看，其他一些媒體播放器可能無法正常查看。

模型限制和偏差

該模型基於Webvid等公共數據集進行訓練，生成結果可能與訓練數據的分佈存在偏差。
此模型無法實現完美的影視質量生成。
模型無法生成清晰的文本。
該模型主要使用英文語料進行訓練，目前不支持其他語言。
在複雜構圖生成任務上，該模型的性能有待提高。

誤用、惡意使用和過度使用

該模型並非用於真實地呈現人物或事件，因此使用它生成此類內容超出了模型的能力範圍。
禁止生成貶低或傷害他人、其環境、文化、宗教等的內容。
禁止用於生成色情、暴力和血腥內容。
禁止用於生成錯誤和虛假信息。

訓練數據

訓練數據包括LAION5B、ImageNet、Webvid等公共數據集。在預訓練後，會進行圖像和視頻過濾，如美學評分、水印評分和去重等操作。

引用

    @InProceedings{VideoFusion,
        author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
        title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
        booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
        month     = {June},
        year      = {2023}
    }

(本模型卡片部分內容取自此處)