🚀 Show-o2:改进的原生统一多模态模型
Show-o2是一个改进的原生统一多模态模型,它在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习,可扩展至文本、图像和视频模态。该模型提出了一种双路径的空间(-时间)融合方法,以适应多模态理解和生成中不同的特征依赖。
🚀 快速开始
环境搭建
首先,设置运行环境:
bash build_env.sh
在你的机器或服务器上登录WandB账户:
wandb login <your wandb keys>
从这里下载Wan2.1 3D因果VAE模型权重,并将其放在当前目录下。
演示示例
多模态理解
以下是多模态理解的演示命令,你可以在WandB上查看结果:
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='Describe the image in detail.'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='请告诉我图片中写着什么?'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='How many avocados (including the halved) are in this image? Tell me how to make an avocado milkshake in detail.'
文本到图像生成
以下是文本到图像生成的演示命令,同样可以在WandB上查看结果:
python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
✨ 主要特性
- 统一学习:在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习,可扩展至文本、图像和视频模态。
- 双路径融合:提出了一种双路径的空间(-时间)融合方法,以适应多模态理解和生成中不同的特征依赖。
- 特定头部:采用特定的头部,结合自回归建模和流匹配,实现多模态理解、图像/视频和混合模态生成的整体统一学习。

📦 预训练模型权重
Show-o2的预训练模型权重可以在Hugging Face上找到:
📚 详细文档
引用
如果你想引用相关论文和模型,请使用以下BibTeX格式:
@article{xie2025showo2,
title={Show-o2: Improved Native Unified Multimodal Models},
author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
journal={arXiv preprint},
year={2025}
}
致谢
本工作很大程度上基于Show-o。
📄 许可证
本项目采用Apache-2.0许可证。