Show-1-SR1オープンソーステキストベース動画生成モデル、無料でデプロイ可能、高い適合度と品質の動画を生成

ホーム

Show 1 Sr1

showlabによって開発

Show-1は効率的なテキストから動画生成モデルで、ピクセルと潜在空間拡散モデルの利点を融合し、テキストと高度に一致する高品質な動画を生成できます。

動画処理 #テキストから動画生成 #カスケード超解像 #ピクセル-潜在空間融合

ダウンロード数 128

リリース時間 : 10/10/2023

モデル概要

Show-1の超解像コンポーネントで、64x40解像度の動画を256x160解像度に向上させる役割を担います。DeepFloyd/IF-II-M-v1.0をWebVid-10Mデータセットでファインチューニングしたものです。

モデル特徴

ピクセルと潜在空間の融合

ピクセルレベルの動画拡散モデルと潜在空間拡散モデルの利点を組み合わせ、テキストマッチング精度を保証しながら計算効率を向上させます。

効率的な超解像

低解像度動画（64x40）を高解像度（256x160）に効率的に向上させるために特別に設計されています。

カスケード型アーキテクチャ

多段階生成プロセスの一部として、他のコンポーネントと連携して高品質な動画生成を実現します。

モデル能力

テキストから動画生成

動画超解像度向上

多段階動画合成

使用事例

動画コンテンツ制作

ショート動画生成

テキスト記述に基づいて高品質なショート動画コンテンツを生成

256x160解像度の動画クリップを生成

動画品質向上

低解像度動画の品質を向上

64x40動画を256x160解像度に向上

クリエイティブメディア

広告制作

製品説明に合致した広告動画を迅速に生成

🚀 Show-1 SR1

ピクセルベースのVDMは、テキストプロンプトと正確に一致する動きを生成できますが、特に高解像度のビデオを生成する際に、時間とGPUメモリの面で高い計算コストがかかります。一方、潜在空間ベースのVDMは、低次元の潜在空間で動作するため、リソース効率が高いです。しかし、このような小さな潜在空間（例えば、256×160のビデオに対して64×40）では、テキストプロンプトで記述された豊富で必要な視覚的な意味情報をカバーするのが難しいです。

ピクセルベースと潜在空間ベースのVDMの長所を生かし、短所を軽減するために、我々はShow-1を提案します。これは、ビデオとテキストの良好なアライメントと高い視覚品質を兼ね備えた効率的なテキストからビデオへの変換モデルです。

📚 ドキュメント

これはShow-1の超解像モデルで、64x40の解像度のビデオを256x160に拡大します。このモデルは、DeepFloyd/IF-II-M-v1.0をWebVid-10Mデータセットでファインチューニングしたものです。

属性	详情
開発者	シンガポール国立大学 Show Lab
モデルタイプ	ピクセルベースと潜在空間ベースのカスケード型テキストからビデオへの拡散モデル
カスケードステージ	超解像 (64x40->256x160)
ファインチューニング元のモデル	DeepFloyd/IF-II-M-v1.0
ライセンス	Creative Commons Attribution Non Commercial 4.0
詳細情報リソース	GitHub, ウェブサイト, arXiv

📦 インストール

GitHubリポジトリをクローンし、必要なパッケージをインストールします。

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

💻 使用例

基本的な使用法

次のコマンドを実行して、テキストプロンプトからビデオを生成します。デフォルトでは、すべてのモデルウェイトがhuggingfaceから自動的にダウンロードされます。

python run_inference.py

高度な使用法

手動でウェイトをダウンロードし、run_inference.pyのpretrained_model_pathを変更して推論を実行することもできます。

git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

📄 ライセンス

このモデルは、Creative Commons Attribution Non Commercial 4.0ライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究を利用する場合は、以下の論文を引用してください。

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}