text-to-video-lvd-ms開源視頻生成模型 - 支持文本轉視頻並能控制內容

首頁

Text To Video Lvd Ms

由longlian開發

該模型結合大語言模型與視頻擴散技術，支持文本到視頻生成，並可通過邊界框條件輸入控制視頻內容。

文本生成視頻 #文本轉視頻 #邊界框條件控制 #動態場景生成

下載量 91

發布時間 : 4/8/2024

模型概述

基於大語言模型的視頻擴散模型(LVD)支持文本到視頻生成，採用GLIGEN風格的邊界框條件輸入，可直接使用魔搭社區的現成模型。

模型特點

邊界框條件控制

支持GLIGEN風格的邊界框條件輸入，可精確控制視頻中對象的位置和大小。

大語言模型集成

結合大語言模型增強提示理解能力，提升文本到視頻的生成質量。

靈活應用

可作為視頻版GLIGEN單獨使用，也可與動態場景佈局生成器配合使用。

模型能力

文本到視頻生成

邊界框條件控制

動態場景生成

使用案例

創意內容生成

短視頻創作

根據文本描述自動生成短視頻內容

可生成符合文本描述的動態視頻場景

教育

教學視頻生成

根據教學大綱自動生成教學視頻

🚀 基於大語言模型的視頻擴散模型

本項目由加州大學伯克利分校/加州大學舊金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li完成，相關成果發表於ICLR 2024。本項目旨在利用大語言模型增強文本到視頻的擴散模型，提升視頻生成的質量和可控性。

項目主頁 | 相關項目：LMD | 引用信息

🚀 快速開始

本模型基於 modelscope 構建，並以 GLIGEN 的方式引入了邊界框的額外條件。

與基於大語言模型的擴散模型（LMD）類似，基於大語言模型的視頻擴散模型（LVD）的框到視頻階段支持基於交叉注意力的邊界框條件，該階段直接使用了 ModelScope 的現成功能。本 Hugging Face 模型提供了另一種選擇：我們在 SA - 1B 數據集上，使用 ModelScope 的權重訓練了一個 GLIGEN 模型（即變壓器適配器），但不包含時間變壓器塊，並將其視為已微調至 256x256 分辨率的 SD v2.1 模型。然後，我們將適配器合併到 ModelScope 中以提供條件。最終的模型就存儲在這個 Hugging Face 模型中。該模型可以與基於交叉注意力的條件結合使用，也可以單獨使用，類似於 LMD+。它既可以與 LVD 中基於大語言模型的文本到動態場景佈局生成器結合使用，也可以單獨作為 GLIGEN 的視頻版本使用。

📚 詳細文檔

引用說明（LVD）

如果您使用了我們的工作、模型或本倉庫中的實現，或者認為它們對您有幫助，請考慮進行引用：

@article{lian2023llmgroundedvideo,
      title={LLM-grounded Video Diffusion Models}, 
      author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
      journal={arXiv preprint arXiv:2309.17444},
      year={2023},
}

@article{lian2023llmgrounded,
    title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models}, 
    author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
    journal={arXiv preprint arXiv:2305.13655},
    year={2023}
}

引用說明（GLIGEN）

本模型中的適配器採用了類似於訓練 GLIGEN 適配器的方式進行訓練：

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}

引用說明（ModelScope）

ModelScope 是 LVD 的基礎模型：

@article{wang2023modelscope,
    title={Modelscope text-to-video technical report},
    author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
    journal={arXiv preprint arXiv:2308.06571},
    year={2023}
}
@InProceedings{VideoFusion,
    author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
    title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023}
}