オープンソースShow - 1 - baseテキストからビデオを生成するモデル - 無料でデプロイし、テキストに合った高品質ビデオを生成

ホーム

Show 1 Base

showlabによって開発

Show-1は効率的なテキストから動画生成モデルで、ピクセルと潜在空間拡散モデルの利点を融合し、テキスト記述と高度に一致する動画を生成できます。

テキスト生成ビデオ #テキストから動画生成 #ピクセル潜在空間融合 #キーフレーム生成

ダウンロード数 186

リリース時間 : 10/10/2023

モデル概要

Show-1はカスケード型テキストから動画生成拡散モデルで、ピクセルと潜在空間拡散モデルの利点を組み合わせることで、動画とテキストの高度な一致を保証しつつ、優れた視覚品質を実現します。

モデル特徴

効率的な生成

ピクセルと潜在空間拡散モデルの利点を組み合わせることで、動画品質を保証しつつ生成効率を向上させます。

高いテキスト一致度

生成された動画は入力テキスト記述と高度に一致し、テキストの意味を正確に反映できます。

多段階処理

ベース段階（キーフレーム生成）、フレーム補間、超解像段階を含むカスケード型アーキテクチャを採用し、段階的に動画品質を向上させます。

モデル能力

テキストから動画生成

動画キーフレーム生成

動画フレーム補間

動画超解像度

使用事例

クリエイティブコンテンツ生成

ショート動画制作

テキスト記述に基づいてクリエイティブなショート動画コンテンツを自動生成します。

64x40解像度、8つのキーフレームを含む動画を生成

教育

教育用動画生成

教育内容に基づいて補助教育用動画を自動生成します。

🚀 Show-1-base

PixelベースのVDMは、テキストプロンプトと正確に一致する動きを生成できますが、特に高解像度のビデオを生成する際に、時間とGPUメモリの面で高コストな計算が必要になります。LatentベースのVDMは、低次元の潜在空間で動作するため、よりリソース効率が高いです。しかし、このような小さな潜在空間（例えば、256×160ビデオの場合は64×40）では、テキストプロンプトで記述された豊富で必要な視覚的な意味情報をカバーすることが難しいです。

PixelベースとLatentベースのVDMの長所を生かし、短所を軽減するために、我々はShow-1を導入しました。これは、ビデオとテキストの良好なアライメントと高い視覚品質を備えたビデオを生成する効率的なテキストからビデオへの変換モデルです。

📚 ドキュメント

これはShow-1のベースモデルで、解像度64x40の8枚のキーフレームを持つビデオを生成します。このモデルは、DeepFloyd/IF-I-L-v1.0をWebVid-10MとInternVidデータセットでファインチューニングしたものです。

属性	详情
開発者	シンガポール国立大学のShow Lab
モデルタイプ	PixelベースとLatentベースのカスケード型テキストからビデオへの拡散モデル
カスケードステージ	ベース（キーフレーム生成）
ファインチューニング元のモデル	DeepFloyd/IF-I-L-v1.0
ライセンス	Creative Commons Attribution Non Commercial 4.0
詳細情報のリソース	GitHub、ウェブサイト、arXiv

📦 インストール

GitHubリポジトリをクローンし、必要なパッケージをインストールします。

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

次のコマンドを実行して、テキストプロンプトからビデオを生成します。デフォルトでは、これによりhuggingfaceからすべてのモデルウェイトが自動的にダウンロードされます。

python run_inference.py

手動でウェイトをダウンロードし、run_inference.pyのpretrained_model_pathを変更して推論を実行することもできます。

git lfs install

# ベース
git clone https://huggingface.co/showlab/show-1-base
# 補間
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

📄 ライセンス

このモデルは、Creative Commons Attribution Non Commercial 4.0ライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究を利用する場合は、以下の論文を引用してください。

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}