text-to-video-lvd-zsオープンソーステキストからビデオへの変換モデル - 言語技術と拡散技術を組み合わせ、選択枠による条件制御をサポート

ホーム

Text To Video Lvd Zs

longlianによって開発

大規模言語モデルとビデオ拡散技術を組み合わせた生成モデルで、バウンディングボックス条件制御をサポート

テキスト生成ビデオ #テキストからビデオ生成 #バウンディングボックス条件制御 #動的シーンレイアウト

ダウンロード数 45

リリース時間 : 5/1/2024

モデル概要

このモデルはzeroscopeをベースに、GLIGENスタイルのバウンディングボックス条件制御機能を追加したもので、テキストからビデオ生成タスクに使用可能。LLMとの連携使用や独立したビデオ生成ツールとして利用可能。

モデル特徴

バウンディングボックス条件制御

GLIGENスタイルのアダプターによる精密な空間制御を実現

LLM統合能力

大規模言語モデルと連携し、よりインテリジェントなシーンレイアウト生成が可能

二重使用モード

独立したビデオ生成ツールとしても、LLMシステムと統合しても使用可能

モデル能力

テキストからビデオ生成

条件付きビデオ生成

動的シーンレイアウト制御

使用事例

クリエイティブコンテンツ生成

ショートビデオ制作

テキスト記述に基づいて自動的にショートビデオコンテンツを生成

576w解像度のビデオクリップを生成可能

教育デモンストレーション

概念の可視化

抽象的な概念を動的な視覚的デモンストレーションに変換

🚀 LLM-grounded Video Diffusion Models

このプロジェクトは、UC Berkeley/UCSFのLong Lian、Baifeng Shi、Adam Yala、Trevor Darrell、Boyi Liによるもので、ICLR 2024にて発表されました。このモデルは、テキストから動画を生成する技術に関するもので、特定の手法を用いて動画生成の精度と柔軟性を向上させています。

プロジェクトページ | 関連プロジェクト: LMD | 引用情報

このモデルは、zeroscopeをベースにしており、GLIGENの方式でバウンディングボックスからの追加の条件付けを行っています。

LLM-grounded Diffusion (LMD)と同様に、LLM-grounded Video Diffusion (LVD) のboxes-to-video段階では、クロスアテンションベースのバウンディングボックス条件付けが可能で、オフザシェルフのZeroscopeを使用します。このHugging Faceモデルは別のアプローチを提供します。我々は、時間的トランスフォーマーブロックを除いたZeroscopeの重みを持つGLIGENモデル（すなわち、トランスフォーマーアダプタ）をSA-1B上で訓練し、256x256解像度に微調整されたSD v2.1モデルとして扱います。その後、アダプタをZeroscopeにマージして条件付けを提供します。結果として得られるモデルがこのHugging Faceモデルです。これは、クロスアテンションベースの条件付けで使用することも、単独で使用することもでき、LMD+と同様です。これは、LVDのLLMベースのテキストから動的シーンレイアウト生成器と併用することも、GLIGENの動画バージョンとして単独で使用することもできます。

📄 ライセンス

ZeroscopeはCC - BY - NC 4.0ライセンスに従います。gligenアダプタはSA - 1B上で訓練されており、SA - 1Bライセンスに従います。

📚 引用情報

LVDの引用

もしあなたが我々の研究、モデル、またはこのリポジトリの実装を使用した場合、またはそれらが役に立ったと感じた場合は、引用を検討してください。

@article{lian2023llmgroundedvideo,
      title={LLM-grounded Video Diffusion Models}, 
      author={Lian, Long and Shi, Baifeng and Yala, Adam and Darrell, Trevor and Li, Boyi},
      journal={arXiv preprint arXiv:2309.17444},
      year={2023},
}

@article{lian2023llmgrounded,
    title={LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models}, 
    author={Lian, Long and Li, Boyi and Yala, Adam and Darrell, Trevor},
    journal={arXiv preprint arXiv:2305.13655},
    year={2023}
}

GLIGENの引用

このモデルのアダプタは、GLIGENアダプタの訓練と同様の方法で訓練されています。

@article{li2023gligen,
  title={GLIGEN: Open-Set Grounded Text-to-Image Generation},
  author={Li, Yuheng and Liu, Haotian and Wu, Qingyang and Mu, Fangzhou and Yang, Jianwei and Gao, Jianfeng and Li, Chunyuan and Lee, Yong Jae},
  journal={CVPR},
  year={2023}
}

ModelScopeの引用

ModelScopeはLVDのベースモデルです。

@article{wang2023modelscope,
    title={Modelscope text-to-video technical report},
    author={Wang, Jiuniu and Yuan, Hangjie and Chen, Dayou and Zhang, Yingya and Wang, Xiang and Zhang, Shiwei},
    journal={arXiv preprint arXiv:2308.06571},
    year={2023}
}
@InProceedings{VideoFusion,
    author    = {Luo, Zhengxiong and Chen, Dayou and Zhang, Yingya and Huang, Yan and Wang, Liang and Shen, Yujun and Zhao, Deli and Zhou, Jingren and Tan, Tieniu},
    title     = {VideoFusion: Decomposed Diffusion Models for High-Quality Video Generation},
    booktitle = {Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)},
    month     = {June},
    year      = {2023}
}