text2video-zero-controlnet-canny-avatarオープンソースモデル - テキストから動画生成とエッジ条件制御を簡単に実現

ホーム

Text2video Zero Controlnet Canny Avatar

PAIRによって開発

Text2Video-Zeroはゼロショットのテキストから動画を生成するモデルで、ControlNetのエッジガイドとアバタースタイルのDreamBooth重みを組み合わせ、テキストから動画生成及びエッジ条件制御を実現します。

テキスト生成ビデオオープンソースライセンス:Openrail #ゼロショット動画生成 #エッジガイド生成 #アバタースタイル

ダウンロード数 126

リリース時間 : 3/27/2023

モデル概要

このモデルはゼロショットのテキストから動画生成、動画指令ガイド編集、テキストと姿勢条件の動画生成、テキストとCannyエッジ条件の動画生成などの機能をサポートし、特にアバタースタイルの動画制作に適しています。

モデル特徴

ゼロショット動画生成

追加のトレーニングなしでテキストから動画を生成

エッジ条件制御

ControlNetを使用してCannyエッジガイドの動画生成を実現

アバタースタイル

DreamBooth重みを統合し、アバタースタイルの動画制作をサポート

多機能アプリケーション

テキストから動画、動画編集、姿勢条件生成など多様な機能をサポート

モデル能力

テキストから動画生成

エッジガイド動画生成

動画編集

姿勢条件動画生成

スタイリッシュな動画制作

使用事例

クリエイティブコンテンツ制作

アバタースタイル動画制作

テキストプロンプトに基づいてアバタースタイルの短い動画を生成

スタイルが統一されたアニメーション動画

エッジガイド動画生成

Cannyエッジマップを使用して動画コンテンツの構造を制御

構造が正確な動画出力

動画編集

指令ガイド動画編集

テキスト指令を使用して既存の動画コンテンツを編集

変更後の動画は元のスタイルを保持

🚀 Text2Video-Zeroモデルカード - ControlNet Cannyアバタースタイル

Text2Video-Zeroはゼロショットのテキストからビデオを生成するモデルです。ゼロショットのテキストからビデオ生成、Video Instruct Pix2Pix（指示に基づくビデオ編集）、テキストとポーズ条件付きビデオ生成、テキストとキャニーエッジ条件付きビデオ生成、テキスト、キャニーエッジ、およびDreambooth条件付きビデオ生成を行うことができます。この研究に関する詳細情報については、論文とデモを参照してください：。当社のコードは、任意のStableDiffusionベースモデルで動作します。

このモデルは、アバタースタイルのDreamBooth重みを提供し、テキストからビデオ生成のゼロショットでエッジガイダンス（ControlNetを使用）とともに使用できます。

🚀 クイックスタート

このモデルは、テキストからビデオ生成や画像生成において、エッジガイダンスとアバタースタイルを用いた高度な機能を提供します。以下に、モデルの詳細情報を示します。

✨ 主な機能

ゼロショットのテキストからビデオ生成
指示に基づくビデオ編集
テキストとポーズ条件付きビデオ生成
テキストとキャニーエッジ条件付きビデオ生成
テキスト、キャニーエッジ、およびDreambooth条件付きビデオ生成

📚 ドキュメント

Text2Video-Zero用の重み

元の重みをdiffusersに変換し、ControlNetのエッジガイダンスで使用できるようにしました。変換には、https://github.com/lllyasviel/ControlNet/discussions/12 を使用しました。

モデル詳細

属性	详情
開発者	Levon Khachatryan、Andranik Movsisyan、Vahram Tadevosyan、Roberto Henschel、Zhangyang Wang、Shant Navasardyan、Humphrey Shi
モデルタイプ	テキストからビデオ生成のゼロショットにおけるエッジ制御付きDreamboothテキストから画像およびビデオ生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license
モデル説明	これは、エッジガイダンスとアバタースタイルを備えたtext2video zero用のモデルです。エッジガイダンス付きのテキストから画像生成のセットアップでControlNetとともに使用することもできます。
DreamBothキーワード	アバタースタイル
詳細情報のリソース	GitHub、論文、CIVITAI

元の重み

アバタースタイルのDreambooth重みは、CIVITAIから取得されました。

モデル詳細

属性	详情
開発者	Quiet_Joker（CIVITAIに記載されているユーザー名）
モデルタイプ	Dreamboothテキストから画像生成モデル
言語	英語
ライセンス	The CreativeML OpenRAIL M license
モデル説明	これは、DreamBoothを使用して、テキストプロンプトに基づいてアバタースタイルの画像を生成するために作成されたモデルです。
DreamBothキーワード	アバタースタイル
詳細情報のリソース	CIVITAI

バイアスとコンテンツに関する注意事項

Text2Video-Zeroは、社会的バイアスを強化または悪化させるコンテンツ、リアルな顔、ポルノグラフィー、および暴力を含むコンテンツを出力する可能性があります。このデモのText2Video-Zeroは、研究目的のみを意図しています。

引用

@article{text2video-zero,
  title={Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video Generators},
  author={Khachatryan, Levon and Movsisyan, Andranik and Tadevosyan, Vahram and Henschel, Roberto and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2303.13439},
  year={2023}
}