🚀 show-1-sr1
Show-1 是一种高效的文本到视频模型,它结合了基于像素和基于隐空间的视频扩散模型(VDMs)的优势,不仅能生成文本与视频高度对齐的视频,还能保证视频具有较高的视觉质量。基于像素的 VDMs 可以生成与文本提示精确对齐的运动,但通常在时间和 GPU 内存方面需要高昂的计算成本,尤其是在生成高分辨率视频时。而基于隐空间的 VDMs 则更节省资源,因为它们在降维的隐空间中工作。然而,如此小的隐空间(例如,对于 256×160 的视频,隐空间为 64×40)很难涵盖文本提示所描述的丰富而必要的视觉语义细节。

🚀 快速开始
克隆 GitHub 仓库并安装所需依赖:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
运行以下命令,根据文本提示生成视频。默认情况下,这将自动从 huggingface 下载所有模型权重。
python run_inference.py
你也可以手动下载权重,并更改 run_inference.py
中的 pretrained_model_path
来运行推理。
git lfs install
git clone https://huggingface.co/showlab/show-1-base
git clone https://huggingface.co/showlab/show-1-interpolation
git clone https://huggingface.co/showlab/show-1-sr1
git clone https://huggingface.co/showlab/show-1-sr2
✨ 主要特性
Show-1 模型结合了基于像素和基于隐空间的 VDMs 的优势,既保证了视频与文本的良好对齐,又提升了视频的视觉质量。本项目中的 show-1-sr1
是 Show-1 的超分辨率模型,可将视频从 64x40 分辨率提升至 256x160。
📦 安装指南
克隆 GitHub 仓库并安装依赖:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
📚 详细文档
模型详情
这是 Show-1 的超分辨率模型,可将视频从 64x40 分辨率提升至 256x160。该模型是在 WebVid-10M 数据集上对 DeepFloyd/IF-II-M-v1.0 进行微调得到的。
引用
如果您使用了我们的工作,请引用我们的论文:
@misc{zhang2023show1,
title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation},
author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
year={2023},
eprint={2309.15818},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡片维护信息
本模型卡片由 David Junhao Zhang 和 Jay Zhangjie Wu 维护。如有任何问题,请随时与我们联系或在仓库中提出问题。
📄 许可证
本项目采用知识共享署名-非商业性使用 4.0 国际许可协议(Creative Commons Attribution Non Commercial 4.0)。