🚀 基於大語言模型的視頻擴散模型
本項目由加州大學伯克利分校/加州大學舊金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li完成,相關成果發表於ICLR 2024。本項目旨在利用大語言模型增強文本到視頻的擴散模型,提升視頻生成的質量和可控性。
項目主頁 | 相關項目:LMD | 引用信息
🚀 快速開始
本模型基於 modelscope 構建,並以 GLIGEN 的方式引入了邊界框的額外條件。
與 基於大語言模型的擴散模型(LMD) 類似,基於大語言模型的視頻擴散模型(LVD)的框到視頻階段支持基於交叉注意力的邊界框條件,該階段直接使用了 ModelScope 的現成功能。本 Hugging Face 模型提供了另一種選擇:我們在 SA - 1B 數據集上,使用 ModelScope 的權重訓練了一個 GLIGEN 模型(即變壓器適配器),但不包含時間變壓器塊,並將其視為已微調至 256x256 分辨率的 SD v2.1 模型。然後,我們將適配器合併到 ModelScope 中以提供條件。最終的模型就存儲在這個 Hugging Face 模型中。該模型可以與基於交叉注意力的條件結合使用,也可以單獨使用,類似於 LMD+。它既可以與 LVD 中基於大語言模型的文本到動態場景佈局生成器結合使用,也可以單獨作為 GLIGEN 的視頻版本使用。
📚 詳細文檔
引用說明(LVD)
如果您使用了我們的工作、模型或本倉庫中的實現,或者認為它們對您有幫助,請考慮進行引用:
@article{lian2023llmgroundedvideo,
title={LLM-grounded Video Diffusion Models},
author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
journal={arXiv preprint arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
引用說明(GLIGEN)
本模型中的適配器採用了類似於訓練 GLIGEN 適配器的方式進行訓練:
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
引用說明(ModelScope)
ModelScope 是 LVD 的基礎模型:
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 許可證
ModelScope 遵循 CC - BY - NC 4.0 許可證。GLIGEN 適配器在 SA - 1B 數據集上進行訓練,該數據集遵循 SA - 1B 許可證。