オープンソースShow-o2-7Bマルチモーダルモデル - 無料で文章、画像、動画の統一的な理解と生成をサポート

ホーム

Show O2 7B

showlabによって開発

Show-o2は改良されたオリジナルの統一多モーダルモデルで、自己回帰モデリングとフローマッチング技術を利用し、テキスト、画像、ビデオモードの統一的な理解と生成をサポートします。

テキスト生成画像オープンソースライセンス:Apache-2.0 #多モーダル統一モデリング #自己回帰フローマッチング #3D因果VAE

ダウンロード数 198

リリース時間 : 6/5/2025

モデル概要

Show-o2は3D因果変分自己符号化器空間に基づき、空間（ - 時間）融合の双経路によって統一的な視覚表現を構築し、画像とビデオモード間で拡張性を実現し、同時に効果的な多モーダル理解と生成を保証します。

モデル特徴

統一的な多モーダル学習

テキストトークンと3D因果VAE空間上で多モーダル理解と生成の統一的な学習を行い、テキスト、画像、ビデオモードをサポートします。

空間（ - 時間）融合の双経路

双経路によって統一的な視覚表現を構築し、多モーダル理解と生成の異なる特徴依存性に適応します。

自己回帰モデリングとフローマッチング

自己回帰モデリングとフローマッチングの特定のヘッドを採用し、多モーダル理解、画像/ビデオおよび混合モード生成の全体的な統一学習に使用します。

モデル能力

テキスト生成

画像生成

ビデオ生成

多モーダル理解

画像説明生成

ビジュアル質問応答

使用事例

多モーダル理解

画像説明生成

入力された画像に基づいて詳細な説明テキストを生成します。

高品質の画像説明を生成でき、画像アノテーションとコンテンツ理解に適しています。

ビジュアル質問応答

画像内容に関する自然言語の質問に回答します。

画像内容に関する複雑な質問に正確に回答できます。

多モーダル生成

テキストから画像生成

テキスト説明に基づいて高品質の画像を生成します。

生成された画像は高解像度で良好な視覚品質を持っています。

テキストからビデオ生成

テキスト説明に基づいてビデオコンテンツを生成します。

生成されたビデオコンテンツは連続的でテキスト説明に合致しています。

🚀 Show - o2：改良された統一マルチモーダルモデル

本稿では、改良されたネイティブな統一マルチモーダルモデルである Show - o2 を紹介します。このモデルは、自己回帰モデリングとフローマッチング技術を活用しています。3D 因果変分自己符号化器空間に基づき、空間（-時間）融合の双経路を通じて統一的な視覚表現を構築し、画像と動画のモード間での拡張性を実現し、同時に効果的なマルチモーダル理解と生成を保証します。

謝金衡¹ 楊振衡² 鄭守 Mike¹

¹ 秀実験室、シンガポール国立大学 ² バイトドゥーン

📚 概要

本論文では、改良されたネイティブな統一マルチモーダルモデル Show - o2 を提案しています。このモデルは、自己回帰モデリングとフローマッチング技術を活用しています。3D 因果変分自己符号化器空間に基づき、空間（-時間）融合の双経路を通じて統一的な視覚表現を構築することで、画像と動画のモード間での拡張性を実現し、同時に効果的なマルチモーダル理解と生成を保証します。言語モデルに基づき、自己回帰モデリングとフローマッチングはそれぞれ言語ヘッドとフローヘッドに適用され、テキストトークン予測と画像/動画生成を促進します。2段階のトレーニングスキームが設計され、より大きなモデルへの効率的な学習と拡張が可能になります。最終的な Show - o2 モデルは、テキスト、画像、動画などのさまざまなモードを含む広範なマルチモーダル理解と生成タスクを処理する際に汎用性を発揮します。コードとモデルは、この https URL で公開されています。

🆕 Show - o2 の革新点

我々は、テキストトークンと 3D 因果 VAE 空間 上でマルチモーダル理解と生成の統一学習を行っています。この空間は、テキスト、画像、動画モード に対して拡張性を持っています。マルチモーダル理解と生成の異なる特徴依存性に対応するために、空間（-時間）融合の双経路を提案しました。自己回帰モデリングとフローマッチング を備えた特定のヘッドを採用し、マルチモーダル理解、画像/動画、および混合モード生成 の全体的な統一学習を行います。

📦 事前学習済みモデルの重み

Show - o2 のチェックポイントは、Hugging Face で見つけることができます。

🚀 クイックスタート

環境構築

まず、環境を設定します。

bash build_env.sh

あなたのマシンまたはサーバーで wandb アカウントにログインします。

wandb login <あなたの wandb キー>

ここから Wan2.1 3D 因果 VAE モデルの重みをダウンロードし、現在のディレクトリに配置します。

マルチモーダル理解のデモ

wandb で結果を確認できます。

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-jane-pham-727419-1571673.jpg question='この画像を詳細に説明してください。'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-fotios-photos-2923436.jpg question='画像に書かれていることを教えてください。'

python3 inference_mmu.py config=configs/showo2_7b_demo_432x432.yaml \
                         mmu_image_path=./docs/mmu/pexels-taryn-elliott-4144459.jpg question='この画像には（切り開いたものを含めて）アボカドはいくつありますか？アボカドミルクシェイクの作り方を詳しく教えてください。'

テキストから画像への生成デモ

wandb で結果を確認できます。

python3 inference_t2i.py config=configs/showo2_1.5b_demo_1024x1024.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
         
python3 inference_t2i.py config=configs/showo2_1.5b_demo_512x512.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;
                                      
python3 inference_t2i.py config=configs/showo2_1.5b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

python3 inference_t2i.py config=configs/showo2_7b_demo_432x432.yaml \
                         batch_size=4 guidance_scale=7.5 num_inference_steps=50;

📖 引用

本論文とモデルを引用する場合は、以下の BibTeX を使用してください。

@article{xie2025showo2,
  title={Show - o2: Improved Native Unified Multimodal Models},
  author={Xie, Jinheng and Yang, Zhenheng and Shou, Mike Zheng},
  journal={arXiv preprint},
  year={2025}
}