🚀 Show-o2:改進的原生統一多模態模型
Show-o2是一個改進的原生統一多模態模型,它在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習,可擴展至文本、圖像和視頻模態。該模型提出了一種雙路徑的空間(-時間)融合方法,以適應多模態理解和生成中不同的特徵依賴。
🚀 快速開始
環境搭建
首先,設置運行環境:
bash build_env.sh
在你的機器或服務器上登錄WandB賬戶:
wandb login <your wandb keys>
從這裡下載Wan2.1 3D因果VAE模型權重,並將其放在當前目錄下。
演示示例
多模態理解
以下是多模態理解的演示命令,你可以在WandB上查看結果:
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='Describe the image in detail.'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='請告訴我圖片中寫著什麼?'
python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='How many avocados (including the halved) are in this image? Tell me how to make an avocado milkshake in detail.'
文本到圖像生成
以下是文本到圖像生成的演示命令,同樣可以在WandB上查看結果:
python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
batch_size=4 guidance_scale=7.5 num_inference_steps=50;
✨ 主要特性
- 統一學習:在文本令牌和3D因果VAE空間上進行多模態理解和生成的統一學習,可擴展至文本、圖像和視頻模態。
- 雙路徑融合:提出了一種雙路徑的空間(-時間)融合方法,以適應多模態理解和生成中不同的特徵依賴。
- 特定頭部:採用特定的頭部,結合自迴歸建模和流匹配,實現多模態理解、圖像/視頻和混合模態生成的整體統一學習。

📦 預訓練模型權重
Show-o2的預訓練模型權重可以在Hugging Face上找到:
📚 詳細文檔
引用
如果你想引用相關論文和模型,請使用以下BibTeX格式:
@article{xie2025showo2,
title={Show-o2: Improved Native Unified Multimodal Models},
author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
journal={arXiv preprint},
year={2025}
}
致謝
本工作很大程度上基於Show-o。
📄 許可證
本項目採用Apache-2.0許可證。