🚀 基于大语言模型的视频扩散模型
本项目由加州大学伯克利分校/加州大学旧金山分校的Long Lian、Baifeng Shi、Adam Yala、Trevor Darrell和Boyi Li开发,入选ICLR 2024。项目提出了基于大语言模型的视频扩散模型,为文本到视频的生成提供了新的解决方案,具有重要的研究和应用价值。
项目主页 | 相关项目:LMD | 引用信息
本模型基于zeroscope构建,并以GLIGEN的方式引入了边界框的额外条件。
与基于大语言模型的图像扩散模型(LMD)类似,基于大语言模型的视频扩散模型(LVD)的“边界框到视频”阶段支持基于交叉注意力的边界框条件,它直接使用了现成的Zeroscope模型。本Hugging Face模型提供了另一种方案:我们在SA - 1B数据集上,使用Zeroscope的权重(不包含时间变换器模块)训练了一个GLIGEN模型(即变换器适配器),将其视为一个已微调至256x256分辨率的Stable Diffusion v2.1模型。然后,我们将这些适配器合并到Zeroscope中以实现条件控制。最终得到的模型即为本Hugging Face模型。该模型既可以与基于交叉注意力的条件控制结合使用,也可以单独使用,类似于LMD+。它既可以与LVD中基于大语言模型的文本到动态场景布局生成器结合使用,也可以作为GLIGEN的视频版本单独使用。
📚 详细文档
引用信息(LVD)
如果您使用了本项目的研究成果、模型或代码实现,或者认为它们对您有帮助,请考虑进行引用。
@article{lian2023llmgroundedvideo,
title={LLM-grounded Video Diffusion Models},
author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
journal={arXiv preprint arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
引用信息(GLIGEN)
本模型中的适配器采用了与训练GLIGEN适配器类似的方式进行训练。
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
引用信息(ModelScope)
ModelScope是LVD的基础模型。
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}
📄 许可证
Zeroscope遵循CC - BY - NC 4.0许可证。GLIGEN适配器在SA - 1B数据集上进行训练,该数据集遵循SA - 1B许可证。