Show-1-sr2開源文本生成視頻模型 - 免費部署，精準輸出高質量視頻

首頁

Show 1 Sr2

由showlab開發

Show-1是一個高效文本生成視頻模型，融合了像素與潛空間擴散模型的優勢，能生成高質量且與文本精準對齊的視頻內容。

視頻處理 #視頻超分辨率 #文本到視頻生成 #級聯擴散模型

下載量 127

發布時間 : 10/10/2023

模型概述

Show-1的超分辨率模塊，可將256x160分辨率視頻提升至576x320，保證良好的視頻-文本對齊性和高質量的視覺效果。

模型特點

高效視頻生成

融合像素與潛空間擴散模型的優勢，在保證視頻質量的同時降低資源消耗。

高質量超分辨率

可將256x160分辨率視頻提升至576x320，顯著提升視頻畫質。

精準文本對齊

生成的視頻內容與輸入文本提示保持高度一致。

模型能力

文本生成視頻

視頻超分辨率

視頻質量提升

使用案例

視頻創作

短視頻生成

根據文本描述自動生成短視頻內容

生成576x320分辨率的高質量視頻

視頻增強

對低分辨率視頻進行超分辨率處理

提升視頻分辨率至576x320

🚀 show-1-sr2

基於像素的視頻擴散模型（VDMs）能夠生成與文本提示精確對齊的運動，但在時間和GPU內存方面通常需要高昂的計算成本，尤其是在生成高分辨率視頻時。基於隱空間的VDMs則更節省資源，因為它們在低維隱空間中工作。然而，這樣的小隱空間（例如，對於256×160的視頻，隱空間為64×40）很難涵蓋文本提示所描述的豐富而必要的視覺語義細節。

為了結合基於像素和基於隱空間的VDMs的優勢並減輕其劣勢，我們推出了 Show-1，這是一個高效的文本到視頻模型，它不僅能生成文本與視頻對齊良好的視頻，還能保證較高的視覺質量。

✨ 主要特性

結合基於像素和基於隱空間的VDMs的優勢，實現文本與視頻的良好對齊和高視覺質量。
提供超分辨率模型，可將視頻從256x160分辨率提升到576x320。

📦 安裝指南

克隆GitHub倉庫並安裝所需依賴：

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

💻 使用示例

基礎用法

運行以下命令，根據文本提示生成視頻。默認情況下，這將自動從huggingface下載所有模型權重。

python run_inference.py

高級用法

你也可以手動下載權重，並修改run_inference.py中的pretrained_model_path來進行推理。

git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

📚 詳細文檔

模型詳情

這是Show-1的超分辨率模型，可將視頻從256x160分辨率提升到576x320。該模型在WebVid-10M數據集上使用擴散時間步0 - 900進行微調。

屬性	詳情
開發者	新加坡國立大學Show Lab
模型類型	基於像素和隱空間的級聯文本到視頻擴散模型
級聯階段	超分辨率（256x160 -> 576x320）
微調基礎模型	cerspense/zeroscope_v2_576w
許可證	知識共享署名非商業性使用4.0國際許可協議
更多信息資源	GitHub、網站、arXiv

引用信息

如果你使用了我們的工作，請引用我們的論文：

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}