🚀 show-1-sr1
Show-1 是一種高效的文本到視頻模型,它結合了基於像素和基於隱空間的視頻擴散模型(VDMs)的優勢,不僅能生成文本與視頻高度對齊的視頻,還能保證視頻具有較高的視覺質量。基於像素的 VDMs 可以生成與文本提示精確對齊的運動,但通常在時間和 GPU 內存方面需要高昂的計算成本,尤其是在生成高分辨率視頻時。而基於隱空間的 VDMs 則更節省資源,因為它們在降維的隱空間中工作。然而,如此小的隱空間(例如,對於 256×160 的視頻,隱空間為 64×40)很難涵蓋文本提示所描述的豐富而必要的視覺語義細節。

🚀 快速開始
克隆 GitHub 倉庫並安裝所需依賴:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
運行以下命令,根據文本提示生成視頻。默認情況下,這將自動從 huggingface 下載所有模型權重。
python run_inference.py
你也可以手動下載權重,並更改 run_inference.py
中的 pretrained_model_path
來運行推理。
git lfs install
git clone https://huggingface.co/showlab/show-1-base
git clone https://huggingface.co/showlab/show-1-interpolation
git clone https://huggingface.co/showlab/show-1-sr1
git clone https://huggingface.co/showlab/show-1-sr2
✨ 主要特性
Show-1 模型結合了基於像素和基於隱空間的 VDMs 的優勢,既保證了視頻與文本的良好對齊,又提升了視頻的視覺質量。本項目中的 show-1-sr1
是 Show-1 的超分辨率模型,可將視頻從 64x40 分辨率提升至 256x160。
📦 安裝指南
克隆 GitHub 倉庫並安裝依賴:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
📚 詳細文檔
模型詳情
這是 Show-1 的超分辨率模型,可將視頻從 64x40 分辨率提升至 256x160。該模型是在 WebVid-10M 數據集上對 DeepFloyd/IF-II-M-v1.0 進行微調得到的。
引用
如果您使用了我們的工作,請引用我們的論文:
@misc{zhang2023show1,
title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation},
author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
year={2023},
eprint={2309.15818},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡片維護信息
本模型卡片由 David Junhao Zhang 和 Jay Zhangjie Wu 維護。如有任何問題,請隨時與我們聯繫或在倉庫中提出問題。
📄 許可證
本項目採用知識共享署名-非商業性使用 4.0 國際許可協議(Creative Commons Attribution Non Commercial 4.0)。