Show-1-sr2开源文本生成视频模型 - 免费部署，精准输出高质量视频

首页

Show 1 Sr2

由 showlab 开发

Show-1是一个高效文本生成视频模型，融合了像素与潜空间扩散模型的优势，能生成高质量且与文本精准对齐的视频内容。

视频处理 #视频超分辨率 #文本到视频生成 #级联扩散模型

下载量 127

发布时间 : 10/10/2023

模型简介

Show-1的超分辨率模块，可将256x160分辨率视频提升至576x320，保证良好的视频-文本对齐性和高质量的视觉效果。

模型特点

高效视频生成

融合像素与潜空间扩散模型的优势，在保证视频质量的同时降低资源消耗。

高质量超分辨率

可将256x160分辨率视频提升至576x320，显著提升视频画质。

精准文本对齐

生成的视频内容与输入文本提示保持高度一致。

模型能力

文本生成视频

视频超分辨率

视频质量提升

使用案例

视频创作

短视频生成

根据文本描述自动生成短视频内容

生成576x320分辨率的高质量视频

视频增强

对低分辨率视频进行超分辨率处理

提升视频分辨率至576x320

🚀 show-1-sr2

基于像素的视频扩散模型（VDMs）能够生成与文本提示精确对齐的运动，但在时间和GPU内存方面通常需要高昂的计算成本，尤其是在生成高分辨率视频时。基于隐空间的VDMs则更节省资源，因为它们在低维隐空间中工作。然而，这样的小隐空间（例如，对于256×160的视频，隐空间为64×40）很难涵盖文本提示所描述的丰富而必要的视觉语义细节。

为了结合基于像素和基于隐空间的VDMs的优势并减轻其劣势，我们推出了 Show-1，这是一个高效的文本到视频模型，它不仅能生成文本与视频对齐良好的视频，还能保证较高的视觉质量。

✨ 主要特性

结合基于像素和基于隐空间的VDMs的优势，实现文本与视频的良好对齐和高视觉质量。
提供超分辨率模型，可将视频从256x160分辨率提升到576x320。

📦 安装指南

克隆GitHub仓库并安装所需依赖：

git clone https://github.com/showlab/Show-1.git
pip install -r requirements.txt

💻 使用示例

基础用法

运行以下命令，根据文本提示生成视频。默认情况下，这将自动从huggingface下载所有模型权重。

python run_inference.py

高级用法

你也可以手动下载权重，并修改run_inference.py中的pretrained_model_path来进行推理。

git lfs install

# base
git clone https://huggingface.co/showlab/show-1-base
# interp
git clone https://huggingface.co/showlab/show-1-interpolation
# sr1
git clone https://huggingface.co/showlab/show-1-sr1
# sr2
git clone https://huggingface.co/showlab/show-1-sr2

📚 详细文档

模型详情

这是Show-1的超分辨率模型，可将视频从256x160分辨率提升到576x320。该模型在WebVid-10M数据集上使用扩散时间步0 - 900进行微调。

属性	详情
开发者	新加坡国立大学Show Lab
模型类型	基于像素和隐空间的级联文本到视频扩散模型
级联阶段	超分辨率（256x160 -> 576x320）
微调基础模型	cerspense/zeroscope_v2_576w
许可证	知识共享署名非商业性使用4.0国际许可协议
更多信息资源	GitHub、网站、arXiv

引用信息

如果你使用了我们的工作，请引用我们的论文：

@misc{zhang2023show1,
    title={Show-1: Marrying Pixel and Latent Diffusion Models for Text-to-Video Generation}, 
    author={David Junhao Zhang and Jay Zhangjie Wu and Jia-Wei Liu and Rui Zhao and Lingmin Ran and Yuchao Gu and Difei Gao and Mike Zheng Shou},
    year={2023},
    eprint={2309.15818},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}