MMaDA-8B-MixCoTオープンソースマルチモーダルモデル - テキスト推論、理解、画像生成をサポート

ホーム

Mmada 8B MixCoT

Gen-Verseによって開発

MMaDAは新しいタイプのマルチモーダル拡散基盤モデルであり、テキスト推論、マルチモーダル理解、テキストから画像生成など複数の分野で優れた性能を発揮します。

テキスト生成画像

Transformers

オープンソースライセンス:MIT #マルチモーダル拡散 #連鎖思考推論 #テキスト画像生成

ダウンロード数 601

リリース時間 : 6/1/2025

モデル概要

MMaDAは統一拡散アーキテクチャを採用し、混合長連鎖思考微調整戦略と統一強化学習アルゴリズムを組み合わせ、マルチモーダルタスクの性能向上を目指しています。

モデル特徴

統一拡散アーキテクチャ

共有確率式とモダリティ非依存設計を採用し、モダリティ固有コンポーネントが不要です。

混合長連鎖思考微調整戦略

各モダリティ間で統一された連鎖思考フォーマットを慎重に設計し、命令追従能力と連鎖思考生成性能を向上させます。

統一強化学習アルゴリズム

UniGRPOアルゴリズムを採用し、推論と生成タスクのポストトレーニングプロセスを統一し、性能の継続的向上を保証します。

モデル能力

テキスト推論

マルチモーダル理解

テキストから画像生成

使用事例

テキスト処理

複雑なテキスト推論

多段階推論を必要とする複雑なテキストタスクを処理

より安定した連鎖思考生成性能

マルチモーダルタスク

クロスモーダル理解

テキストと画像情報を同時に処理・理解

より優れたマルチモーダル理解能力

コンテンツ生成

テキストから画像生成

テキスト記述に基づき高品質な画像を生成

高品質な画像生成効果

🚀 MMaDA-8B-MixCoT

MMaDAは、テキスト推論、マルチモーダル理解、テキストから画像生成など、多様な領域で優れた性能を達成するために設計された、新しいクラスのマルチモーダル拡散基礎モデルです。MMaDAには、以下の3つの重要な革新点があります。

MMaDAは、共通の確率的定式化とモダリティ非依存の設計を持つ統一拡散アーキテクチャを採用しており、モダリティ固有のコンポーネントを必要としません。
MMaDAは、モダリティ間で統一された思考連鎖（CoT）形式を策定する混合長思考連鎖（CoT）微調整戦略を導入しています。
MMaDAは、拡散基礎モデルに特化した、統一的な方策勾配ベースの強化学習アルゴリズムを採用しています。これをUniGRPOと呼びます。多様な報酬モデリングを利用して、UniGRPOは推論と生成タスクの両方における事後学習を統一し、一貫した性能向上を保証します。

MMaDA-8B-Baseと比較すると、MMaDA-8B-MixCoTは、命令に対する追従能力がより優れており、CoT生成性能もより安定しています。

論文 | コード | デモ

✨ 主な機能

MMaDAは、多様なマルチモーダルタスクで優れた性能を発揮する革新的なモデルです。統一拡散アーキテクチャ、混合長思考連鎖（CoT）微調整戦略、統一的な方策勾配ベースの強化学習アルゴリズム（UniGRPO）を採用することで、モダリティ固有のコンポーネントを必要とせず、一貫した性能向上を実現しています。

📄 ライセンス

このプロジェクトはMITライセンスの下で提供されています。

📚 ドキュメント

引用

@article{yang2025mmada,
  title={MMaDA: Multimodal Large Diffusion Language Models},
  author={Yang, Ling and Tian, Ye and Li, Bowen and Zhang, Xinchen and Shen, Ke and Tong, Yunhai and Wang, Mengdi},
  journal={arXiv preprint arXiv:2505.15809},
  year={2025}
}