🚀 Show-1-base
基于像素的视频扩散模型(VDMs)能够生成与文本提示精确对齐的运动效果,但在生成高分辨率视频时,通常需要在时间和GPU内存方面付出高昂的计算成本。基于隐空间的VDMs则更具资源效率,因为它们在降维后的隐空间中工作。然而,对于如此小的隐空间(例如,对于256×160的视频,隐空间为64×40)来说,要涵盖文本提示所描述的丰富而必要的视觉语义细节是具有挑战性的。
为了结合基于像素和基于隐空间的VDMs的优势并减轻其劣势,我们推出了Show-1,这是一种高效的文本到视频模型,它不仅能生成视频与文本对齐良好的视频,还能保证较高的视觉质量。

✨ 主要特性
- 结合了基于像素和基于隐空间的VDMs的优势,实现视频与文本的良好对齐以及高视觉质量。
- 基于特定数据集进行微调,生成具有特定分辨率和关键帧数的视频。
📦 安装指南
克隆GitHub仓库并安装所需依赖:
git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt
💻 使用示例
基础用法
运行以下命令,根据文本提示生成视频。默认情况下,这将自动从Hugging Face下载所有模型权重。
python run_inference.py
高级用法
你也可以手动下载权重,并修改run_inference.py
中的pretrained_model_path
来进行推理。
git lfs install
git clone https://huggingface.co/showlab/show-1-base
git clone https://huggingface.co/showlab/show-1-interpolation
git clone https://huggingface.co/showlab/show-1-sr1
git clone https://huggingface.co/showlab/show-1-sr2
📚 详细文档
模型详情
这是Show-1的基础模型,可生成分辨率为64x40、包含8个关键帧的视频。该模型是在WebVid - 10M和InternVid数据集上,基于DeepFloyd/IF - I - L - v1.0进行微调得到的。
引用
如果您使用了我们的工作,请引用我们的论文:
@misc{zhang2023show1,
title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation},
author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
year={2023},
eprint={2309.15818},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
模型卡片维护信息
本模型卡片由David Junhao Zhang和Jay Zhangjie Wu维护。如有任何问题,请随时与我们联系或在仓库中提出问题。
📄 许可证
本项目采用知识共享署名非商业性使用4.0许可协议(Creative Commons Attribution Non Commercial 4.0)。