オープンソースのText2Video-Zeroテキストからビデオを生成するツール - 無料でGTA-5スタイルのエッジガイドビデオ生成を実現

ホーム

Text2video Zero Controlnet Canny Gta5

PAIRによって開発

Text2Video-Zeroはゼロショットテキストから動画を生成するツールで、ControlNetによるエッジガイドのGTA-5スタイル動画生成をサポートします。

テキスト生成ビデオオープンソースライセンス:Openrail #ゼロショット動画生成 #GTA-5スタイライズ #エッジガイド制御

ダウンロード数 38

リリース時間 : 3/24/2023

モデル概要

このモデルはDreamBoothとControlNet技術を組み合わせ、テキストプロンプトとエッジ条件に基づいてGTA-5スタイルの動画や画像を生成でき、ゼロショット動画生成と編集をサポートします。

モデル特徴

ゼロショット動画生成

追加トレーニングなしでテキストから動画コンテンツを生成可能

エッジ条件制御

ControlNetによるCannyエッジガイドの動画/画像生成

GTA-5アートスタイル

生成される動画/画像はGTA-5ゲームのアートスタイル特徴を有する

マルチ条件サポート

テキスト、ポーズ、エッジなど複数条件の組み合わせ制御をサポート

モデル能力

テキストから動画生成

テキストから画像生成

動画編集

スタイライズ生成

エッジガイド生成

使用事例

クリエイティブコンテンツ生成

GTA-5スタイル動画制作

テキスト記述に基づくGTA-5アートスタイルのショート動画コンテンツ生成

ゲームのアートスタイルに合致する動的シーンを生成

エッジガイド画像生成

Cannyエッジマップを使用した特定構図のGTA-5スタイル画像生成

エッジ構造を保持しつつスタイライズ効果を適用

動画編集

スタイライズ動画変換

通常動画をGTA-5アートスタイルに変換

元動画の動きを保持しつつスタイル変換を適用

🚀 Text2Video-Zeroモデルカード - ControlNet Canny GTA-5スタイル

Text2Video-Zeroはゼロショットのテキストから動画を生成するモデルです。ゼロショットのテキストから動画生成、Video Instruct Pix2Pix（指示に基づく動画編集）、テキストとポーズ条件付き動画生成、テキストとキャニーエッジ条件付き動画生成、テキスト、キャニーエッジ、およびDreambooth条件付き動画生成を行うことができます。この研究に関する詳細情報は、論文とデモを参照してください：。当社のコードは、任意のStableDiffusionベースモデルで動作します。

このモデルは、GTA-5スタイルのDreamBoothの重みを提供し、テキストから動画生成のゼロショットでエッジガイダンス（ControlNetを使用）とともに使用できます。

🚀 クイックスタート

Text2Video-Zero用の重み

元の重みをdiffusersに変換し、エッジガイダンス付きのControlNetで使用できるようにしました。変換には、https://github.com/lllyasviel/ControlNet/discussions/12 を使用しました。

✨ 主な機能

モデル詳細

プロパティ	詳細
開発者	Levon Khachatryan、Andranik Movsisyan、Vahram Tadevosyan、Roberto Henschel、Zhangyang Wang、Shant Navasardyan、Humphrey Shi
モデルタイプ	テキストから動画生成のゼロショット用のエッジ制御付きDreamboothテキストから画像およびテキストから動画生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license
モデル説明	これは、エッジガイダンスとGTA-5スタイルを備えたtext2video zero用のモデルです。また、エッジガイダンス付きのテキストから画像生成のセットアップでControlNetとともに使用することもできます。
DreamBothキーワード	gtav style
詳細情報のリソース	GitHub、論文、CIVITAI

引用方法

@article{text2video-zero,
  title={Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators},
  author={Khachatryan, Levon and Movsisyan, Andranik and Tadevosyan, Vahram and Henschel, Roberto and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2303.13439},
  year={2023}
}

元の重み

GTA-5スタイルのDreambooth重みは、CIVITAIから取得しました。

モデル詳細

プロパティ	詳細
開発者	Quiet_Joker（CIVITAIに登録されているユーザー名）
モデルタイプ	Dreamboothテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license
モデル説明	これは、DreamBoothを使用して、テキストプロンプトに基づいてGTA-5スタイルの画像を生成するために作成されたモデルです。
DreamBothキーワード	gtav style
詳細情報のリソース	CIVITAI

📄 ライセンス

このモデルは、The CreativeML OpenRAIL M licenseの下で提供されています。

バイアスのあるコンテンツに関する注意

Text2Video-Zeroは、社会的バイアスを強化または悪化させるコンテンツ、リアルな顔、ポルノグラフィー、および暴力を含むコンテンツを出力する可能性があります。このデモのText2Video-Zeroは、研究目的のみを意図しています。

引用

@article{text2video-zero,
  title={Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators},
  author={Khachatryan, Levon and Movsisyan, Andranik and Tadevosyan, Vahram and Henschel, Roberto and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2303.13439},
  year={2023}
}