Show-o2-1.5Bオープンソースマルチモーダルモデル - テキスト、画像、ビデオの理解と生成を無料で実現

ホーム

Show O2 1.5B

showlabによって開発

Show - o2は改良されたオリジナルの統一マルチモーダルモデルで、テキスト、画像、ビデオモードの理解と生成をサポートします。

テキスト生成画像

PyTorch

オープンソースライセンス:Apache-2.0 #マルチモーダル統一学習 #3D因果VAE #デュアルパス融合

ダウンロード数 145

リリース時間 : 6/5/2025

モデル概要

Show - o2は、テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を行い、デュアルパスの空間（-時間）融合方法を提案し、マルチモーダルタスクに適しています。

モデル特徴

統一学習フレームワーク

テキストトークンと3D因果VAE空間でマルチモーダル理解と生成の統一学習を実現

デュアルパス融合

デュアルパスの空間（-時間）融合方法を採用し、異なるモードの特徴依存性に適応

特定のヘッド設計

自己回帰モデリングとフローマッチングを組み合わせ、マルチモーダル理解と生成の統一学習を実現

モデル能力

マルチモーダル理解

テキストから画像生成

画像説明生成

ビジュアル質問応答

多言語対応

使用事例

ビジュアル理解

画像説明

入力画像に対して詳細な説明を生成

オブジェクト、シーン、関係を含む自然言語の説明を生成できます

ビジュアル質問応答

画像内容に関する自然言語の質問に回答

画像内のオブジェクトの数、文字内容などの質問に正確に回答できます

コンテンツ生成

テキストから画像生成

テキストの指示に基づいて高品質な画像を生成

複数の解像度（432x432から1024x1024）の画像生成をサポート

🚀 Show-o2：改良されたネイティブ統一マルチモーダルモデル

Show-o2は改良されたネイティブ統一マルチモーダルモデルで、テキストトークンと3D因果VAE空間上でマルチモーダル理解と生成の統一学習を行い、テキスト、画像、ビデオモードに拡張可能です。このモデルは、マルチモーダル理解と生成における異なる特徴依存性に対応するために、双経路の空間（-時間）融合方法を提案しています。

🚀 クイックスタート

環境構築

まず、実行環境を設定します。

bash build_env.sh

あなたのマシンまたはサーバーでWandBアカウントにログインします。

wandb login <your wandb keys>

ここからWan2.1 3D因果VAEモデルの重みをダウンロードし、カレントディレクトリに配置します。

デモンストレーション例

マルチモーダル理解

以下はマルチモーダル理解のデモンストレーションコマンドで、WandB上で結果を確認できます。

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='Describe the image in detail.'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='请告诉我图片中写着什么？'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='How many avocados (including the halved) are in this image? Tell me how to make an avocado milkshake in detail.'

テキストから画像生成

以下はテキストから画像生成のデモンストレーションコマンドで、同様にWandB上で結果を確認できます。

python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
         
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
                                      
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

✨ 主な機能

統一学習：テキストトークンと3D因果VAE空間上でマルチモーダル理解と生成の統一学習を行い、テキスト、画像、ビデオモードに拡張可能です。
双経路融合：マルチモーダル理解と生成における異なる特徴依存性に対応するために、双経路の空間（-時間）融合方法を提案しています。
特定のヘッド：特定のヘッドを採用し、自己回帰モデリングと流マッチングを組み合わせて、マルチモーダル理解、画像/ビデオ、混合モード生成の全体的な統一学習を実現します。

モデル概要

📦 事前学習モデルの重み

Show-o2の事前学習モデルの重みは、Hugging Face上で見つけることができます。

📚 ドキュメント

引用

関連する論文やモデルを引用する場合は、以下のBibTeX形式を使用してください。

@article{xie2025showo2,
  title={Show-o2: Improved Native Unified Multimodal Models},
  author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
  journal={arXiv preprint},
  year={2025}
}