Show-1-SR1開源文本生成視頻模型，免費部署，生成高契合度高質量視頻

首頁

Show 1 Sr1

由showlab開發

Show-1是一個高效文本生成視頻模型，融合像素與潛空間擴散模型的優勢，能生成與文本高度契合的高質量視頻。

視頻處理 #文本生成視頻 #級聯超分辨率 #像素-潛空間融合

下載量 128

發布時間 : 10/10/2023

模型概述

Show-1的超分辨率組件，負責將64x40分辨率視頻提升至256x160分辨率，基於DeepFloyd/IF-II-M-v1.0在WebVid-10M數據集上微調而成。

模型特點

像素與潛空間融合

結合像素級視頻擴散模型和潛空間擴散模型的優勢，既保證文本匹配精度，又提升計算效率。

高效超分辨率

專門設計用於將低分辨率視頻（64x40）高效提升至高分辨率（256x160）。

級聯式架構

作為多階段生成流程的一部分，與其他組件協同工作實現高質量視頻生成。

模型能力

文本到視頻生成

視頻超分辨率提升

多階段視頻合成

使用案例

視頻內容創作

短視頻生成

根據文本描述生成高質量短視頻內容

生成256x160分辨率的視頻片段

視頻增強

提升低分辨率視頻的質量

將64x40視頻提升至256x160分辨率

創意媒體

廣告製作

快速生成符合產品描述的廣告視頻

🚀 show-1-sr1

Show-1 是一種高效的文本到視頻模型，它結合了基於像素和基於隱空間的視頻擴散模型（VDMs）的優勢，不僅能生成文本與視頻高度對齊的視頻，還能保證視頻具有較高的視覺質量。基於像素的 VDMs 可以生成與文本提示精確對齊的運動，但通常在時間和 GPU 內存方面需要高昂的計算成本，尤其是在生成高分辨率視頻時。而基於隱空間的 VDMs 則更節省資源，因為它們在降維的隱空間中工作。然而，如此小的隱空間（例如，對於 256×160 的視頻，隱空間為 64×40）很難涵蓋文本提示所描述的豐富而必要的視覺語義細節。

模型方法

🚀 快速開始

克隆 GitHub 倉庫並安裝所需依賴：

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

運行以下命令，根據文本提示生成視頻。默認情況下，這將自動從 huggingface 下載所有模型權重。

python run_inference.py

你也可以手動下載權重，並更改 run_inference.py 中的 pretrained_model_path 來運行推理。

git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

✨ 主要特性

Show-1 模型結合了基於像素和基於隱空間的 VDMs 的優勢，既保證了視頻與文本的良好對齊，又提升了視頻的視覺質量。本項目中的 show-1-sr1 是 Show-1 的超分辨率模型，可將視頻從 64x40 分辨率提升至 256x160。

📦 安裝指南

克隆 GitHub 倉庫並安裝依賴：

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

📚 詳細文檔

模型詳情

這是 Show-1 的超分辨率模型，可將視頻從 64x40 分辨率提升至 256x160。該模型是在 WebVid-10M 數據集上對 DeepFloyd/IF-II-M-v1.0 進行微調得到的。

屬性	詳情
開發者	新加坡國立大學 Show Lab
模型類型	基於像素和隱空間的級聯文本到視頻擴散模型
級聯階段	超分辨率（64x40 -> 256x160）
微調基礎模型	DeepFloyd/IF-II-M-v1.0
許可證	知識共享署名-非商業性使用 4.0 國際許可協議
更多信息資源	GitHub、官網、arXiv

引用

如果您使用了我們的工作，請引用我們的論文：

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}