text-to-video-lvd-msオープンソースビデオ生成モデル - テキストをビデオに変換し、内容を制御できます

ホーム

Text To Video Lvd Ms

longlianによって開発

このモデルは大規模言語モデルとビデオ拡散技術を組み合わせ、テキストから動画生成をサポートし、バウンディングボックス条件入力を通じて動画内容を制御できます。

テキスト生成ビデオ #テキストから動画 #バウンディングボックス条件制御 #動的シーン生成

ダウンロード数 91

リリース時間 : 4/8/2024

モデル概要

大規模言語モデルベースのビデオ拡散モデル(LVD)はテキストから動画生成をサポートし、GLIGENスタイルのバウンディングボックス条件入力を採用しており、魔搭コミュニティの既存モデルを直接使用できます。

モデル特徴

バウンディングボックス条件制御

GLIGENスタイルのバウンディングボックス条件入力をサポートし、動画内オブジェクトの位置とサイズを精密に制御できます。

大規模言語モデル統合

大規模言語モデルを組み合わせてプロンプト理解能力を強化し、テキストから動画生成の品質を向上させます。

柔軟な応用

ビデオ版GLIGENとして単独で使用可能、または動的シーンレイアウトジェネレーターと組み合わせて使用可能です。

モデル能力

テキストから動画生成

バウンディングボックス条件制御

動的シーン生成

使用事例

クリエイティブコンテンツ生成

ショートビデオ制作

テキスト記述に基づいて自動的にショートビデオコンテンツを生成

テキスト記述に合致する動的ビデオシーンを生成可能

教育

教育ビデオ生成

教育カリキュラムに基づいて自動的に教育ビデオを生成

🚀 LLM-grounded Video Diffusion Models

このプロジェクトは、UC Berkeley/UCSFのLong Lian、Baifeng Shi、Adam Yala、Trevor Darrell、Boyi Liによるもので、ICLR 2024にて発表されました。このモデルは、テキストから動画を生成するモデルで、特定の手法を用いて条件付き生成を行うことができます。

プロジェクトページ | 関連プロジェクト: LMD | 引用

このモデルはmodelscopeをベースにしており、GLIGENの方式でバウンディングボックスからの追加の条件付けを行っています。

LLM-grounded Diffusion (LMD)と同様に、LLM-grounded Video Diffusion (LVD)のboxes-to-video段階では、クロスアテンションベースのバウンディングボックス条件付けが可能で、ModelScopeの既成のものを使用しています。このHugging Faceモデルは別の選択肢を提供します。我々は、SA-1B上で時間的トランスフォーマーブロックを持たないModelScopeの重みでGLIGENモデル（つまり、トランスフォーマーアダプター）を訓練し、それを256x256解像度に微調整されたSD v2.1モデルとして扱います。その後、アダプターをModelScopeにマージして条件付けを提供します。結果として得られるモデルがこのHugging Faceモデルです。これは、クロスアテンションベースの条件付けで使用することも、それ自体で使用することもでき、LMD+と同様です。これは、LVDのLLMベースのテキストから動的シーンレイアウト生成器とともに使用することも、GLIGENの動画バージョンとしてそれ自体で使用することもできます。

📚 詳細ドキュメント

引用 (LVD)

もしあなたが我々の研究、モデル、またはこのリポジトリの実装を使用した場合、またはそれらが役に立ったと感じた場合、引用を検討してください。

@article{lian2023llmgroundedvideo,
      title={LLM-grounded Video Diffusion Models}, 
      author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
      journal={arXiv preprint arXiv:2309.17444},
      year={2023},
}

@article{lian2023llmgrounded,
    title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models}, 
    author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
    journal={arXiv preprint arXiv:2305.13655},
    year={2023}
}

引用 (GLIGEN)

このモデルのアダプターは、GLIGENアダプターの訓練と同様の方法で訓練されています。

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}

引用 (ModelScope)

ModelScopeはLVDのベースモデルです。

@article{wang2023modelscope,
    title={Modelscope text-to-video technical report},
    author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
    journal={arXiv preprint arXiv:2308.06571},
    year={2023}
}
@InProceedings{VideoFusion,
    author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
    title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023}
}