🚀 show-1-sr2
基於像素的視頻擴散模型(VDMs)能夠生成與文本提示精確對齊的運動,但在時間和GPU內存方面通常需要高昂的計算成本,尤其是在生成高分辨率視頻時。基於隱空間的VDMs則更節省資源,因為它們在低維隱空間中工作。然而,這樣的小隱空間(例如,對於256×160的視頻,隱空間為64×40)很難涵蓋文本提示所描述的豐富而必要的視覺語義細節。
為了結合基於像素和基於隱空間的VDMs的優勢並減輕其劣勢,我們推出了 Show-1,這是一個高效的文本到視頻模型,它不僅能生成文本與視頻對齊良好的視頻,還能保證較高的視覺質量。

✨ 主要特性
- 結合基於像素和基於隱空間的VDMs的優勢,實現文本與視頻的良好對齊和高視覺質量。
- 提供超分辨率模型,可將視頻從256x160分辨率提升到576x320。
📦 安裝指南
克隆GitHub倉庫並安裝所需依賴:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
💻 使用示例
基礎用法
運行以下命令,根據文本提示生成視頻。默認情況下,這將自動從huggingface下載所有模型權重。
python run_inference.py
高級用法
你也可以手動下載權重,並修改run_inference.py
中的pretrained_model_path
來進行推理。
git lfs install
git clone https://huggingface.co/showlab/show-1-base
git clone https://huggingface.co/showlab/show-1-interpolation
git clone https://huggingface.co/showlab/show-1-sr1
git clone https://huggingface.co/showlab/show-1-sr2
📚 詳細文檔
模型詳情
這是Show-1的超分辨率模型,可將視頻從256x160分辨率提升到576x320。該模型在WebVid-10M數據集上使用擴散時間步0 - 900進行微調。
引用信息
如果你使用了我們的工作,請引用我們的論文:
@misc{zhang2023show1,
title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation},
author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
year={2023},
eprint={2309.15818},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡片維護信息
本模型卡片由David Junhao Zhang和Jay Zhangjie Wu維護。如有任何問題,請隨時與我們聯繫或在倉庫中提出問題。
📄 許可證
本模型採用知識共享署名非商業性使用4.0國際許可協議(Creative Commons Attribution Non Commercial 4.0)。