🚀 開放推理器零(Open Reasoner Zero)
開放推理器零(Open Reasoner Zero)是首個專注於可擴展性、簡易性和可訪問性的大規模面向推理的強化學習訓練的開源實現。它通過發佈源代碼、參數設置、訓練數據和模型權重,推動更多人參與到人工智能通用智能(AGI)的研究中。
🚀 快速開始
數據
我們在data
文件夾中發佈了所有精心整理的高質量訓練數據:
- 精心整理的12.9萬條數據:
- 原始的5.7萬條,從各種來源收集,包括美國數學邀請賽(AIME,截至2023年)、MATH、Numina - Math集合和Tulu3 MATH。
- 擴展的7.2萬條,主要從OpenR1 - Math - 220k中清理而來。
- 1.3萬條難題數據,從ORZ - 32B訓練的第一階段挖掘而來。
有關如何收集數據的詳細信息,請參閱我們的論文。
安裝與訓練腳本
我們在docker文件夾中發佈了Dockerfile,以方便復現我們的訓練。
要安裝軟件包,請運行:
pip install -e .
啟動ORZ - 32B近端策略優化(PPO)訓練
以下是在16個節點上的啟動命令。
首先在主節點上運行:
ray start --head
然後在所有其他節點上運行:
ray start --address='<主節點IP>:<主節點端口>'
最後在主節點上運行:
python -m playground.orz_32b_ppo
訓練日誌將顯示在主節點的終端中。
啟動ORZ - 0.5B近端策略優化(PPO)訓練
你可以在單個A800/H800節點上啟動ORZ - 0.5B的PPO訓練:
python -m playground.orz_0p5b_ppo
你甚至可以在單個A800/H800 GPU上運行:
python -m playground.orz_0p5b_ppo_1gpu
注意:由於我們不是在多節點設置中,因此不需要像ray start
這樣的邏輯。
啟動ORZ - 7B近端策略優化(PPO)訓練
在4個節點上進行多節點訓練:
ray start --head
ray start --address='<主節點IP>:<主節點端口>'
python -m playground.orz_7b_ppo
訓練日誌將顯示在主節點的終端中。
啟動ORZ - 1.5B近端策略優化(PPO)訓練
在2個節點上進行多節點訓練:
ray start --head
ray start --address='<主節點IP>:<主節點端口>'
python -m playground.orz_1p5b_ppo
調試設置
在代碼中,我們留下了一個環境變量DEBUG_MODE
,供研究人員在調試設置下進行迭代。(目前,我們建議使用python -m playground.orz_0p5b_ppo_1gpu
進行調試。)
調試運行命令示例:
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
DEBUG_MODE=True python -m playground.orz_7b_ppo
如何使用模型
策略模型
由於我們已將聊天模板Jinja放入分詞器中,因此策略模型可以像transformers和vllm中的任何聊天模型一樣使用。
評判模型
評判模型可以像訓練代碼中那樣加載。
✨ 主要特性
- 採用單控制器訓練器設計,靈活且對研究人員友好。
- 將訓練和生成置於同一GPU中,以最大限度地提高GPU利用率。
🏆 主要成果
圖1 | 開放推理器零(Open - Reasoner - Zero) - {7B, 32B}的評估性能。開放推理器零 - {7B, 32B}在基準測試中的評估性能(16個響應的平均值)。使用與DeepSeek - R1 - Zero - Qwen - 32B相同的基礎模型,開放推理器零 - 32B在AIME2024、MATH500和GPQA鑽石基準測試中取得了優異的性能,僅需十分之一的訓練步驟。
圖2 | 開放推理器零(ORZ) - {0.5B, 1.5B, 7B, 32B}在訓練獎勵和響應長度上的訓練時間擴展。訓練獎勵和響應長度穩步增加,表明在不同模型大小下具有一致的可擴展性。有趣的是,ORZ - 32B的響應長度出現波動,但並未對訓練穩定性產生負面影響,凸顯了我們極簡配方的魯棒性。
📦 版本發佈
[2025/03/31]
我們宣佈開放推理器零
取得了一個重要的里程碑:
[2025/02/18]
我們發佈了開放推理器零
。作為此次發佈的一部分,我們開源了:
💖 致謝
📣 招聘信息
我們正在招聘有才華的研究人員和工程師加入我們的團隊。如果您對我們的項目感興趣,並希望為推理器的擴展直至通用人工智能(AGI)做出貢獻,請隨時通過hanqer@stepfun.com與我們聯繫。
🍺 社區討論
我們有幾個微信群來促進討論和分享,你可以掃描下面的二維碼加入最新的群組。

📄 許可證
本項目採用MIT許可證。
📖 引用
@misc{hu2025openreasonerzeroopensourceapproach,
title={Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model},
author={Jingcheng Hu and Yinmin Zhang and Qi Han and Daxin Jiang and Xiangyu Zhang and Heung-Yeung Shum},
year={2025},
eprint={2503.24290},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.24290},
}