🚀 基於大語言模型的視頻擴散模型
本項目由加州大學伯克利分校/加州大學舊金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li開發,入選ICLR 2024。項目提出了基於大語言模型的視頻擴散模型,為文本到視頻的生成提供了新的解決方案,具有重要的研究和應用價值。
項目主頁 | 相關項目:LMD | 引用信息
本模型基於zeroscope構建,並以GLIGEN的方式引入了邊界框的額外條件。
與基於大語言模型的圖像擴散模型(LMD)類似,基於大語言模型的視頻擴散模型(LVD)的“邊界框到視頻”階段支持基於交叉注意力的邊界框條件,它直接使用了現成的Zeroscope模型。本Hugging Face模型提供了另一種方案:我們在SA - 1B數據集上,使用Zeroscope的權重(不包含時間變換器模塊)訓練了一個GLIGEN模型(即變換器適配器),將其視為一個已微調至256x256分辨率的Stable Diffusion v2.1模型。然後,我們將這些適配器合併到Zeroscope中以實現條件控制。最終得到的模型即為本Hugging Face模型。該模型既可以與基於交叉注意力的條件控制結合使用,也可以單獨使用,類似於LMD+。它既可以與LVD中基於大語言模型的文本到動態場景佈局生成器結合使用,也可以作為GLIGEN的視頻版本單獨使用。
📚 詳細文檔
引用信息(LVD)
如果您使用了本項目的研究成果、模型或代碼實現,或者認為它們對您有幫助,請考慮進行引用。
@article{lian2023llmgroundedvideo,
title={LLM-grounded Video Diffusion Models},
author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
journal={arXiv preprint arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
引用信息(GLIGEN)
本模型中的適配器採用了與訓練GLIGEN適配器類似的方式進行訓練。
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
引用信息(ModelScope)
ModelScope是LVD的基礎模型。
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 許可證
Zeroscope遵循CC - BY - NC 4.0許可證。GLIGEN適配器在SA - 1B數據集上進行訓練,該數據集遵循SA - 1B許可證。