開源M1-32B大語言模型 - 提升多智能體系統推理、討論與決策能力

首頁

M1 32b

由Can111開發

M1-32B是基於Qwen2.5-32B-Instruct微調的320億參數大語言模型，專為提升多智能體系統中的推理、討論和決策能力而優化。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多智能體協作推理 #角色感知對話 #跨學科決策優化

下載量 179

發布時間 : 3/11/2025

模型概述

該模型通過多智能體協作推理訓練，增強在複雜任務中的推理能力和角色感知對話生成能力，適用於多智能體系統(MAS)的研究和應用。

模型特點

增強型協作推理

基於真實多智能體交互軌跡訓練，涵蓋專家招募官、問題解決者、評估者等多元角色。

角色感知對話生成

通過結構化提示學習從不同專家視角進行推理和回應。

多智能體系統優化

具備自適應協作和token預算管理能力，是優秀的MAS智能體。

模型能力

多智能體協作推理

數學問題求解

編程任務解決

跨語言文本生成

角色感知對話生成

使用案例

學術研究

多智能體系統研究

用於研究多智能體協作推理機制和決策過程

在MATH-500和MBPP-S任務上達到與o3-mini和DeepSeek-R1相當的水平

教育

數學問題求解

協助學生解決複雜數學問題

在AIME2024和MATH-500測試中表現優異

🚀 M1-32B大語言模型

M1-32B是一個具有320億參數的大語言模型，它基於Qwen2.5-32B-Instruct在M500數據集（一個跨學科的多智能體協作推理數據集）上進行微調。該模型針對多智能體系統（MAS）中的推理、討論和決策進行了優化，適用於AgentVerse等框架。

🚀 快速開始

本模型的代碼可在https://github.com/jincan333/MAS-TTS獲取。

✨ 主要特性

🧠 增強的協作推理能力
基於涉及不同角色（如專家招聘者、問題解決者和評估者）的真實多智能體軌跡進行訓練。
🗣️ 角色感知的對話生成
能夠根據結構化提示，從不同專家的角度進行推理和回應。
⚙️ 針對多智能體系統進行優化
作為MAS智能體表現出色，具備自適應協作和令牌預算管理能力。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

📚 詳細文檔

🏗️ 模型訓練

基礎模型：Qwen2.5-32B-Instruct
數據集：M500（500條精心策劃的多智能體推理軌跡）
目標：在角色條件提示上進行監督微調（SFT）
訓練設置：
- 8 × A100 GPU
- 5個訓練週期
- 學習率：1e-5
- 框架：DeepSpeed、FlashAttention、LLaMA-Factory

📊 性能

模型	通用理解能力		數學推理能力		編碼能力
	GPQA	Commongen	AIME2024	MATH - 500	HumanEval	MBPP - S
非推理模型
Qwen2.5	50.2	96.7	21.1	84.4	89.0	80.2
DeepSeek - V3	58.6	98.6	33.3	88.6	89.6	83.9
GPT - 4o	49.2	97.8	7.8	81.3	90.9	85.4
推理模型
s1.1 - 32B	58.3	94.1	53.3	90.6	82.3	77.4
DeepSeek - R1	75.5	97.2	78.9	96.2	98.2	91.7
o3 - mini	71.3	99.1	84.4	95.3	97.0	93.6
M1 - 32B（我們的模型）	61.1	96.9	60.0	95.1	92.8	89.1
M1 - 32B w. CEO（我們的模型）	62.1	97.4	62.2	95.8	93.9	90.5

表格說明：在AgentVerse框架內，使用強推理和非推理模型在通用理解、數學推理和編碼任務上的性能比較。我們的方法在所有任務上都比Qwen2.5和s1.1 - 32B有顯著改進，並且在MATH - 500和MBPP - S上達到了與o3 - mini和DeepSeek - R1相當的性能，證明了其在增強MAS協作推理方面的有效性。請注意，s1.1 - 32B的結果是在不使用預算強制的情況下獲得的。

💬 預期用途

M1 - 32B旨在用於多智能體系統中多智能體推理和協作的研究。

📄 許可證

本模型採用Apache - 2.0許可證。

引用

如果您使用此模型，請引用相關論文：

@article{jin2025two,
  title={Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning},
  author={Jin, Can and Peng, Hongwu and Zhang, Qixin and Tang, Yujin and Metaxas, Dimitris N and Che, Tong},
  journal={arXiv preprint arXiv:2504.09772},
  year={2025}
}

模型信息

屬性	詳情
基礎模型	Qwen/Qwen2.5 - 32B - Instruct
支持語言	中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文
庫名稱	transformers
許可證	apache - 2.0
標籤	多智能體系統、多智能體協作、推理、數學、代碼
任務類型	文本生成
模型索引名稱	m1 - 32B