🚀 LLM-grounded Video Diffusion Models
このプロジェクトは、UC Berkeley/UCSFのLong Lian、Baifeng Shi、Adam Yala、Trevor Darrell、Boyi Liによるもので、ICLR 2024にて発表されました。このモデルは、テキストから動画を生成する技術に関するもので、特定の手法を用いて動画生成の精度と柔軟性を向上させています。
プロジェクトページ | 関連プロジェクト: LMD | 引用情報
このモデルは、zeroscopeをベースにしており、GLIGENの方式でバウンディングボックスからの追加の条件付けを行っています。
LLM-grounded Diffusion (LMD)と同様に、LLM-grounded Video Diffusion (LVD) のboxes-to-video段階では、クロスアテンションベースのバウンディングボックス条件付けが可能で、オフザシェルフのZeroscopeを使用します。このHugging Faceモデルは別のアプローチを提供します。我々は、時間的トランスフォーマーブロックを除いたZeroscopeの重みを持つGLIGENモデル(すなわち、トランスフォーマーアダプタ)をSA-1B上で訓練し、256x256解像度に微調整されたSD v2.1モデルとして扱います。その後、アダプタをZeroscopeにマージして条件付けを提供します。結果として得られるモデルがこのHugging Faceモデルです。これは、クロスアテンションベースの条件付けで使用することも、単独で使用することもでき、LMD+と同様です。これは、LVDのLLMベースのテキストから動的シーンレイアウト生成器と併用することも、GLIGENの動画バージョンとして単独で使用することもできます。
📄 ライセンス
ZeroscopeはCC - BY - NC 4.0ライセンスに従います。gligenアダプタはSA - 1B上で訓練されており、SA - 1Bライセンスに従います。
📚 引用情報
LVDの引用
もしあなたが我々の研究、モデル、またはこのリポジトリの実装を使用した場合、またはそれらが役に立ったと感じた場合は、引用を検討してください。
@article{lian2023llmgroundedvideo,
title={LLM-grounded Video Diffusion Models},
author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
journal={arXiv preprint arXiv:2309.17444},
year={2023},
}
@article{lian2023llmgrounded,
title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models},
author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
journal={arXiv preprint arXiv:2305.13655},
year={2023}
}
GLIGENの引用
このモデルのアダプタは、GLIGENアダプタの訓練と同様の方法で訓練されています。
@article{li2023gligen,
title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
journal={CVPR},
year={2023}
}
ModelScopeの引用
ModelScopeはLVDのベースモデルです。
@article{wang2023modelscope,
title={Modelscope text-to-video technical report},
author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
journal={arXiv preprint arXiv:2308.06571},
year={2023}
}
@InProceedings{VideoFusion,
author = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
title = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
month = {June},
year = {2023}
}