Open-Reasoner-Zero-32B開源模型 - 免費實現大規模推理導向強化學習，易用又可擴展

首頁

Open Reasoner Zero 32B

由Open-Reasoner-Zero開發

首個專注於可擴展性、簡潔性和易用性的大規模推理導向強化學習的開源實現

大型語言模型

Transformers

開源協議:MIT #數學推理強化 #多規模訓練 #開源強化學習

下載量 498

發布時間 : 2/18/2025

模型概述

開放推理者零號是基於基礎模型規模化強化學習的開源方案，專注於推理能力的提升，適用於數學推理等高難度任務。

模型特點

規模化強化學習

支持從5億到320億參數規模的模型訓練，展示一致的擴展能力

高效訓練

僅需十分之一的訓練步數即可達到或超越同類模型性能

開源完整

公開源代碼、參數設置、訓練數據和模型權重

資源優化

提供單GPU訓練方案，降低研究門檻

模型能力

數學問題求解

複雜推理

多步問題解答

高難度競賽題解答

使用案例

教育

數學競賽題解答

解答AIME等數學競賽題目

在AIME2024上達到48%準確率

數學學習輔助

提供分步數學問題解答

研究

強化學習研究

作為規模化強化學習的基準模型

🚀 開放推理器零（Open Reasoner Zero）

開放推理器零（Open Reasoner Zero）是首個專注於可擴展性、簡易性和可訪問性的大規模面向推理的強化學習訓練的開源實現。它通過發佈源代碼、參數設置、訓練數據和模型權重，推動更多人參與到人工智能通用智能（AGI）的研究中。

🚀 快速開始

數據

我們在data文件夾中發佈了所有精心整理的高質量訓練數據：

精心整理的12.9萬條數據：
- 原始的5.7萬條，從各種來源收集，包括美國數學邀請賽（AIME，截至2023年）、MATH、Numina - Math集合和Tulu3 MATH。
- 擴展的7.2萬條，主要從OpenR1 - Math - 220k中清理而來。
1.3萬條難題數據，從ORZ - 32B訓練的第一階段挖掘而來。

有關如何收集數據的詳細信息，請參閱我們的論文。

安裝與訓練腳本

我們在docker文件夾中發佈了Dockerfile，以方便復現我們的訓練。

要安裝軟件包，請運行：

pip install -e .

啟動ORZ - 32B近端策略優化（PPO）訓練

以下是在16個節點上的啟動命令。

首先在主節點上運行：

ray start --head
# 你將看到如下日誌：
# 下一步
#  要將另一個節點添加到這個Ray集群，請運行
#    ray start --address='<主節點IP>:<主節點端口>'

然後在所有其他節點上運行：

ray start --address='<主節點IP>:<主節點端口>' # <主節點IP>和<主節點端口>來自上述日誌！

最後在主節點上運行：

python -m playground.orz_32b_ppo

訓練日誌將顯示在主節點的終端中。

啟動ORZ - 0.5B近端策略優化（PPO）訓練

你可以在單個A800/H800節點上啟動ORZ - 0.5B的PPO訓練：

python -m playground.orz_0p5b_ppo

你甚至可以在單個A800/H800 GPU上運行：

python -m playground.orz_0p5b_ppo_1gpu

注意：由於我們不是在多節點設置中，因此不需要像ray start這樣的邏輯。

啟動ORZ - 7B近端策略優化（PPO）訓練

在4個節點上進行多節點訓練：

# 為多節點訓練進行設置
ray start --head # 在主節點上
ray start --address='<主節點IP>:<主節點端口>' # 然後在其他節點上

# 然後在主節點上運行：
python -m playground.orz_7b_ppo

訓練日誌將顯示在主節點的終端中。

啟動ORZ - 1.5B近端策略優化（PPO）訓練

在2個節點上進行多節點訓練：

# 為多節點訓練進行設置
ray start --head # 在主節點上
ray start --address='<主節點IP>:<主節點端口>' # 然後在其他節點上
# 然後在主節點上運行：
python -m playground.orz_1p5b_ppo

調試設置

在代碼中，我們留下了一個環境變量DEBUG_MODE，供研究人員在調試設置下進行迭代。（目前，我們建議使用python -m playground.orz_0p5b_ppo_1gpu進行調試。）

調試運行命令示例：

# 注意：僅用於調試，不是最終設置！

## 在單個GPU上使用`EleutherAI/pythia - 14m`進行調試命令
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
## 在單個節點（8個GPU）上使用`Qwen/Qwen2.5 - 7B`進行調試命令
DEBUG_MODE=True python -m playground.orz_7b_ppo

如何使用模型

策略模型

由於我們已將聊天模板Jinja放入分詞器中，因此策略模型可以像transformers和vllm中的任何聊天模型一樣使用。

評判模型

評判模型可以像訓練代碼中那樣加載。

✨ 主要特性

採用單控制器訓練器設計，靈活且對研究人員友好。
將訓練和生成置於同一GPU中，以最大限度地提高GPU利用率。

🏆 主要成果

圖1 | 開放推理器零（Open - Reasoner - Zero） - {7B, 32B}的評估性能。開放推理器零 - {7B, 32B}在基準測試中的評估性能（16個響應的平均值）。使用與DeepSeek - R1 - Zero - Qwen - 32B相同的基礎模型，開放推理器零 - 32B在AIME2024、MATH500和GPQA鑽石基準測試中取得了優異的性能，僅需十分之一的訓練步驟。

圖2 | 開放推理器零（ORZ） - {0.5B, 1.5B, 7B, 32B}在訓練獎勵和響應長度上的訓練時間擴展。訓練獎勵和響應長度穩步增加，表明在不同模型大小下具有一致的可擴展性。有趣的是，ORZ - 32B的響應長度出現波動，但並未對訓練穩定性產生負面影響，凸顯了我們極簡配方的魯棒性。

📦 版本發佈

[2025/03/31]

我們宣佈開放推理器零取得了一個重要的里程碑：

🌊 更新的論文，包含新的結果。
🔭 易於使用的訓練腳本：
- ORZ - 1.5B訓練腳本和ORZ - 0.5B訓練腳本（圖2中的主要結果）。
- 最小資源訓練腳本：ORZ - 0.5B可以在單個A800/H800 GPU上運行！
🤩 更新的精選數據集：
- 總共12.9萬條數據：
  - 原始的5.7萬條數據。
  - 擴展的7.2萬條數據。
- 1.3萬條難題數據，從上述12.9萬條數據中挖掘而來。
  - 用於ORZ - 32B訓練的“退火”階段：AIME2024從約41%提升到約48%！
🤗 更多Hugging Face模型：
- 更新的Hugging Face模型：開放推理器零 - 7B和開放推理器零 - 32B。
- 發佈的Hugging Face模型：開放推理器零 - 1.5B和開放推理器零 - 0.5B。
🚀 用於深入研究的全套評判模型：開放推理器零評判模型 - {0.5B, 1.5B, 7B, 32B}。

[2025/02/18]

我們發佈了開放推理器零。作為此次發佈的一部分，我們開源了：

🌊 論文（進行中），關於我們在推理器零訓練中的全面分析和見解。
🤗 Hugging Face模型開放推理器零 - 7B和開放推理器零 - 32B。
🎁 我們精心整理的5.7萬條訓練數據。
📄 訓練腳本，讓你開啟自己的推理器零之旅！

💖 致謝

這項工作得到了StepFun和清華大學提供的計算資源和寶貴反饋的支持。
我們的訓練框架基於OpenRLHF、vllm、DeepSpeed和ray構建。
我們的模型基於基礎模型的Qwen2.5系列，包括Qwen2.5 - 0.5B、Qwen2.5 - 1.5B、Qwen2.5 - 7B和Qwen2.5 - 32B。
我們感謝Project Numina、Tulu3和OpenR1 - Math - 220k提供的開源數據。

📣 招聘信息

我們正在招聘有才華的研究人員和工程師加入我們的團隊。如果您對我們的項目感興趣，並希望為推理器的擴展直至通用人工智能（AGI）做出貢獻，請隨時通過hanqer@stepfun.com與我們聯繫。

🍺 社區討論

我們有幾個微信群來促進討論和分享，你可以掃描下面的二維碼加入最新的群組。

微信群二維碼

📄 許可證

本項目採用MIT許可證。

📖 引用

@misc{hu2025openreasonerzeroopensourceapproach,
      title={Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model}, 
      author={Jingcheng Hu and Yinmin Zhang and Qi Han and Daxin Jiang and Xiangyu Zhang and Heung-Yeung Shum},
      year={2025},
      eprint={2503.24290},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2503.24290}, 
}