🚀 基于大语言模型的视频扩散模型
本项目由加州大学伯克利分校/加州大学旧金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li完成,相关成果发表于ICLR 2024。本项目旨在利用大语言模型增强文本到视频的扩散模型,提升视频生成的质量和可控性。
项目主页 | 相关项目:LMD | 引用信息
🚀 快速开始
本模型基于 modelscope 构建,并以 GLIGEN 的方式引入了边界框的额外条件。
与 基于大语言模型的扩散模型(LMD) 类似,基于大语言模型的视频扩散模型(LVD)的框到视频阶段支持基于交叉注意力的边界框条件,该阶段直接使用了 ModelScope 的现成功能。本 Hugging Face 模型提供了另一种选择:我们在 SA - 1B 数据集上,使用 ModelScope 的权重训练了一个 GLIGEN 模型(即变压器适配器),但不包含时间变压器块,并将其视为已微调至 256x256 分辨率的 SD v2.1 模型。然后,我们将适配器合并到 ModelScope 中以提供条件。最终的模型就存储在这个 Hugging Face 模型中。该模型可以与基于交叉注意力的条件结合使用,也可以单独使用,类似于 LMD+。它既可以与 LVD 中基于大语言模型的文本到动态场景布局生成器结合使用,也可以单独作为 GLIGEN 的视频版本使用。
📚 详细文档
引用说明(LVD)
如果您使用了我们的工作、模型或本仓库中的实现,或者认为它们对您有帮助,请考虑进行引用:
@article{lian2023llmgroundedvideo,
title={LLM-grounded Video Diffusion Models},
author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
journal={arXiv preprint arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
引用说明(GLIGEN)
本模型中的适配器采用了类似于训练 GLIGEN 适配器的方式进行训练:
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
引用说明(ModelScope)
ModelScope 是 LVD 的基础模型:
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 许可证
ModelScope 遵循 CC - BY - NC 4.0 许可证。GLIGEN 适配器在 SA - 1B 数据集上进行训练,该数据集遵循 SA - 1B 许可证。