Show-1-sr2オープンソーステキスト生成ビデオモデル - 無料でデプロイでき、高精度で高品質のビデオを出力

ホーム

Show 1 Sr2

showlabによって開発

Show-1は効率的なテキストからビデオを生成するモデルで、ピクセルと潜在空間拡散モデルの利点を融合し、高品質でテキストと正確に一致するビデオコンテンツを生成できます。

動画処理 #ビデオ超解像 #テキストからビデオ生成 #カスケード拡散モデル

ダウンロード数 127

リリース時間 : 10/10/2023

モデル概要

Show-1の超解像モジュールは、256x160解像度のビデオを576x320に向上させ、良好なビデオ-テキストの整合性と高品質な視覚効果を保証します。

モデル特徴

効率的なビデオ生成

ピクセルと潜在空間拡散モデルの利点を融合し、ビデオ品質を保ちながらリソース消費を削減します。

高品質な超解像

256x160解像度のビデオを576x320に向上させ、ビデオ画質を大幅に改善します。

正確なテキスト整合

生成されたビデオコンテンツは入力テキストプロンプトと高度に一致します。

モデル能力

テキストからビデオ生成

ビデオ超解像

ビデオ品質向上

使用事例

ビデオ制作

ショートビデオ生成

テキスト説明に基づいて自動的にショートビデオコンテンツを生成

576x320解像度の高品質ビデオを生成

ビデオエンハンスメント

低解像度ビデオに対して超解像処理を実施

ビデオ解像度を576x320に向上

🚀 Show-1-sr2

PixelベースのVDMは、テキストプロンプトに正確に合致した動きを生成できますが、特に高解像度のビデオを生成する際に、時間とGPUメモリの面で高い計算コストを必要とします。LatentベースのVDMは、次元が削減された潜在空間で動作するため、よりリソース効率が良いです。しかし、このような小さな潜在空間（例えば、256×160のビデオに対して64×40）では、テキストプロンプトで記述された豊富で必要な視覚的な意味情報をカバーすることが難しいです。

PixelベースとLatentベースのVDMの長所を生かし、短所を軽減するために、我々はShow-1を導入しました。これは、ビデオとテキストの整合性が良好で、視覚的な品質も高いビデオを生成する効率的なテキストからビデオへの変換モデルです。

📚 ドキュメント

これはShow-1の超解像モデルで、ビデオを256x160の解像度から576x320に拡大します。このモデルは、WebVid-10Mデータセットを使用して、拡散タイムステップ0 - 900でファインチューニングされています。

属性	详情
開発者	シンガポール国立大学のShow Lab
モデルタイプ	PixelベースとLatentベースのカスケード型テキストからビデオへの拡散モデル
カスケードステージ	超解像（256x160 -> 576x320）
ファインチューニング元のモデル	cerspense/zeroscope_v2_576w
ライセンス	Creative Commons Attribution Non Commercial 4.0
詳細情報のリソース	GitHub、ウェブサイト、arXiv

💻 使用例

基本的な使用法

GitHubリポジトリをクローンし、必要なパッケージをインストールします。

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

次のコマンドを実行して、テキストプロンプトからビデオを生成します。デフォルトでは、huggingfaceからすべてのモデルの重みが自動的にダウンロードされます。

python run_inference.py

高度な使用法

手動で重みをダウンロードし、run_inference.pyのpretrained_model_pathを変更して推論を実行することもできます。

git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

📄 ライセンス

このモデルは、Creative Commons Attribution Non Commercial 4.0ライセンスの下で提供されています。

📚 引用

もしあなたが我々の研究を利用する場合は、以下の論文を引用してください。

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}