Show-o2-1.5B開源多模態模型 - 免費實現文本、圖像、視頻理解與生成

首頁

Show O2 1.5B

由showlab開發

Show-o2是一個改進的原生統一多模態模型，支持文本、圖像和視頻模態的理解與生成。

文本生成圖像

PyTorch

開源協議:Apache-2.0 #多模態統一學習 #3D因果VAE #雙路徑融合

下載量 145

發布時間 : 6/5/2025

模型概述

Show-o2在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習，提出雙路徑的空間（-時間）融合方法，適用於多模態任務。

模型特點

統一學習框架

在文本令牌和3D因果VAE空間上實現多模態理解和生成的統一學習

雙路徑融合

採用雙路徑的空間（-時間）融合方法，適應不同模態的特徵依賴

特定頭部設計

結合自迴歸建模和流匹配，實現多模態理解與生成的統一學習

模型能力

多模態理解

文本到圖像生成

圖像描述生成

視覺問答

多語言支持

使用案例

視覺理解

圖像描述

對輸入圖像生成詳細描述

可生成包含對象、場景和關係的自然語言描述

視覺問答

回答關於圖像內容的自然語言問題

能準確回答關於圖像中對象數量、文字內容等問題

內容生成

文本到圖像生成

根據文本提示生成高質量圖像

支持多種分辨率（432x432至1024x1024）的圖像生成

🚀 Show-o2：改進的原生統一多模態模型

Show-o2是一個改進的原生統一多模態模型，它在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習，可擴展至文本、圖像和視頻模態。該模型提出了一種雙路徑的空間（-時間）融合方法，以適應多模態理解和生成中不同的特徵依賴。

🚀 快速開始

環境搭建

首先，設置運行環境：

bash build_env.sh

在你的機器或服務器上登錄WandB賬戶：

wandb login <your wandb keys>

從這裡下載Wan2.1 3D因果VAE模型權重，並將其放在當前目錄下。

演示示例

多模態理解

以下是多模態理解的演示命令，你可以在WandB上查看結果：

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='Describe the image in detail.'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='請告訴我圖片中寫著什麼？'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='How many avocados (including the halved) are in this image? Tell me how to make an avocado milkshake in detail.'

文本到圖像生成

以下是文本到圖像生成的演示命令，同樣可以在WandB上查看結果：

python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
         
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
                                      
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

✨ 主要特性

統一學習：在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習，可擴展至文本、圖像和視頻模態。
雙路徑融合：提出了一種雙路徑的空間（-時間）融合方法，以適應多模態理解和生成中不同的特徵依賴。
特定頭部：採用特定的頭部，結合自迴歸建模和流匹配，實現多模態理解、圖像/視頻和混合模態生成的整體統一學習。

模型概述

📦 預訓練模型權重

Show-o2的預訓練模型權重可以在Hugging Face上找到：

📚 詳細文檔

引用

如果你想引用相關論文和模型，請使用以下BibTeX格式：

@article{xie2025showo2,
  title={Show-o2: Improved Native Unified Multimodal Models},
  author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
  journal={arXiv preprint},
  year={2025}
}