オープンソースM1-32B大規模言語モデル - マルチエージェントシステムの推論、討論、決定能力を向上させる

ホーム

M1 32b

Can111によって開発

M1-32BはQwen2.5-32B-Instructを微調整した320億パラメータの大規模言語モデルで、マルチエージェントシステムにおける推論、議論、意思決定能力の向上に最適化されています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #マルチエージェント協調推論 #役割認識対話 #学際的意思決定最適化

ダウンロード数 179

リリース時間 : 3/11/2025

モデル概要

このモデルはマルチエージェント協調推論トレーニングを通じて、複雑なタスクにおける推論能力と役割認識対話生成能力を強化し、マルチエージェントシステム(MAS)の研究と応用に適しています。

モデル特徴

強化型協調推論

実際のマルチエージェント相互作用軌跡に基づくトレーニングで、専門家リクルーター、問題解決者、評価者など多様な役割をカバー。

役割認識対話生成

構造化プロンプト学習により、異なる専門家視点から推論と応答を行う。

マルチエージェントシステム最適化

適応的協調とトークン予算管理能力を備え、優れたMASエージェントです。

モデル能力

マルチエージェント協調推論

数学問題解決

プログラミングタスク解決

多言語テキスト生成

役割認識対話生成

使用事例

学術研究

マルチエージェントシステム研究

マルチエージェント協調推論メカニズムと意思決定プロセスの研究に使用

MATH-500とMBPP-Sタスクでo3-miniやDeepSeek-R1と同等のレベルを達成

教育

数学問題解決

学生が複雑な数学問題を解決するのを支援

AIME2024とMATH-500テストで優れた成績

🚀 M1-32B

M1-32Bは、320億パラメータの大規模言語モデルです。Qwen2.5-32B-InstructをM500データセット（学際的なマルチエージェント協調推論データセット）でファインチューニングしています。M1-32Bは、AgentVerseなどのフレームワークを含むマルチエージェントシステム（MAS）における推論、議論、意思決定の向上のために最適化されています。

論文: Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning コード: https://github.com/jincan333/MAS-TTS

🚀 クイックスタート

M1-32Bは、マルチエージェントシステムにおける研究や開発に使用できる大規模言語モデルです。以下の情報を参考に、モデルを利用してください。

✨ 主な機能

🧠 強化された協調推論
専門家採用担当者、問題解決者、評価者などの多様な役割を含む実際のマルチエージェントトレースで学習されています。
🗣️ 役割認識型対話生成
構造化されたプロンプトに基づいて、異なる専門家の視点から推論し、応答することができます。
⚙️ マルチエージェントシステム向け最適化
適応的な協調とトークン予算管理を備えたMASエージェントとして良好な性能を発揮します。

📦 インストール

このセクションでは、原READMEにインストール手順が記載されていないため、省略します。

📚 ドキュメント

🏗️ モデルの学習

ベースモデル: Qwen2.5-32B-Instruct
データセット: M500 (500件の精選されたマルチエージェント推論トレース)
目的: 役割条件付きプロンプトでの教師ありファインチューニング（SFT）
学習設定:
- 8 × A100 GPU
- 5エポック
- 学習率: 1e-5
- フレームワーク: DeepSpeed、FlashAttention、LLaMA-Factory

📊 性能

モデル	一般的な理解		数学的推論		コーディング
	GPQA	Commongen	AIME2024	MATH-500	HumanEval	MBPP-S
非推論モデル
Qwen2.5	50.2	96.7	21.1	84.4	89.0	80.2
DeepSeek-V3	58.6	98.6	33.3	88.6	89.6	83.9
GPT-4o	49.2	97.8	7.8	81.3	90.9	85.4
推論モデル
s1.1-32B	58.3	94.1	53.3	90.6	82.3	77.4
DeepSeek-R1	75.5	97.2	78.9	96.2	98.2	91.7
o3-mini	71.3	99.1	84.4	95.3	97.0	93.6
M1-32B (Ours)	61.1	96.9	60.0	95.1	92.8	89.1
M1-32B w. CEO (Ours)	62.1	97.4	62.2	95.8	93.9	90.5

表の説明:
AgentVerseフレームワーク内での一般的な理解、数学的推論、コーディングタスクにおける性能比較です。当モデルは、すべてのタスクでQwen2.5およびs1.1-32Bよりも大幅な改善を達成し、MATH-500およびMBPP-Sではo3-miniおよびDeepSeek-R1と同等の性能を達成しており、MASにおける協調推論の強化における有効性を示しています。なお、s1.1-32Bの結果は、予算制限を使用せずに得られたものです。

💬 意図された用途

M1-32Bは、マルチエージェントシステムにおけるマルチエージェント推論と協調の研究に使用することを意図しています。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

引用

このモデルを使用する場合は、関連する論文を引用してください。

@article{jin2025two,
  title={Two Heads are Better Than One: Test-time Scaling of Multi-agent Collaborative Reasoning},
  author={Jin, Can and Peng, Hongwu and Zhang, Qixin and Tang, Yujin and Metaxas, Dimitris N and Che, Tong},
  journal={arXiv preprint arXiv:2504.09772},
  year={2025}
}