MMaDA-8B-MixCoT開源多模態模型 - 助力文本推理、理解及圖像生成

首頁

Mmada 8B MixCoT

由Gen-Verse開發

MMaDA是一類新型的多模態擴散基礎模型，在文本推理、多模態理解和文本到圖像生成等多個領域表現卓越。

文本生成圖像

Transformers

開源協議:MIT #多模態擴散 #思維鏈推理 #文本圖像生成

下載量 601

發布時間 : 6/1/2025

模型概述

MMaDA採用統一的擴散架構，結合混合長思維鏈微調策略和統一的強化學習算法，旨在提升多模態任務的性能。

模型特點

統一擴散架構

採用共享的概率公式和與模態無關的設計，無需特定於模態的組件。

混合長思維鏈微調策略

在各模態間精心策劃統一的思維鏈格式，提升指令遵循能力和思維鏈生成性能。

統一的強化學習算法

採用UniGRPO算法，統一推理和生成任務的後訓練過程，確保性能持續提升。

模型能力

文本推理

多模態理解

文本到圖像生成

使用案例

文本處理

複雜文本推理

處理需要多步推理的複雜文本任務

更穩定的思維鏈生成性能

多模態任務

跨模態理解

同時處理和理解文本和圖像信息

更好的多模態理解能力

內容生成

文本到圖像生成

根據文本描述生成高質量圖像

高質量的圖像生成效果

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Mmada 8B MixCoT

模型概述

模型特點

模型能力

使用案例

🚀 MMaDA-8B-MixCoT

✨ 主要特性

📄 許可證

📚 詳細文檔

引用