Show-o2-1.5B开源多模态模型 - 免费实现文本、图像、视频理解与生成

首页

Show O2 1.5B

由 showlab 开发

Show-o2是一个改进的原生统一多模态模型，支持文本、图像和视频模态的理解与生成。

文本生成图像

PyTorch

开源协议:Apache-2.0 #多模态统一学习 #3D因果VAE #双路径融合

下载量 145

发布时间 : 6/5/2025

模型简介

Show-o2在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习，提出双路径的空间（-时间）融合方法，适用于多模态任务。

模型特点

统一学习框架

在文本令牌和3D因果VAE空间上实现多模态理解和生成的统一学习

双路径融合

采用双路径的空间（-时间）融合方法，适应不同模态的特征依赖

特定头部设计

结合自回归建模和流匹配，实现多模态理解与生成的统一学习

模型能力

多模态理解

文本到图像生成

图像描述生成

视觉问答

多语言支持

使用案例

视觉理解

图像描述

对输入图像生成详细描述

可生成包含对象、场景和关系的自然语言描述

视觉问答

回答关于图像内容的自然语言问题

能准确回答关于图像中对象数量、文字内容等问题

内容生成

文本到图像生成

根据文本提示生成高质量图像

支持多种分辨率（432x432至1024x1024）的图像生成

🚀 Show-o2：改进的原生统一多模态模型

Show-o2是一个改进的原生统一多模态模型，它在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习，可扩展至文本、图像和视频模态。该模型提出了一种双路径的空间（-时间）融合方法，以适应多模态理解和生成中不同的特征依赖。

🚀 快速开始

环境搭建

首先，设置运行环境：

bash build_env.sh

在你的机器或服务器上登录WandB账户：

wandb login <your wandb keys>

从这里下载Wan2.1 3D因果VAE模型权重，并将其放在当前目录下。

演示示例

多模态理解

以下是多模态理解的演示命令，你可以在WandB上查看结果：

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='Describe the image in detail.'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='请告诉我图片中写着什么？'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='How many avocados (including the halved) are in this image? Tell me how to make an avocado milkshake in detail.'

文本到图像生成

以下是文本到图像生成的演示命令，同样可以在WandB上查看结果：

python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
         
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
                                      
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

✨ 主要特性

统一学习：在文本令牌和3D因果VAE空间上进行多模态理解和生成的统一学习，可扩展至文本、图像和视频模态。
双路径融合：提出了一种双路径的空间（-时间）融合方法，以适应多模态理解和生成中不同的特征依赖。
特定头部：采用特定的头部，结合自回归建模和流匹配，实现多模态理解、图像/视频和混合模态生成的整体统一学习。

模型概述

📦 预训练模型权重

Show-o2的预训练模型权重可以在Hugging Face上找到：

📚 详细文档

引用

如果你想引用相关论文和模型，请使用以下BibTeX格式：

@article{xie2025showo2,
  title={Show-o2: Improved Native Unified Multimodal Models},
  author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
  journal={arXiv preprint},
  year={2025}
}