🚀 开放推理器零(Open Reasoner Zero)
开放推理器零(Open Reasoner Zero)是首个专注于可扩展性、简易性和可访问性的大规模面向推理的强化学习训练的开源实现。它通过发布源代码、参数设置、训练数据和模型权重,推动更多人参与到人工智能通用智能(AGI)的研究中。
🚀 快速开始
数据
我们在data
文件夹中发布了所有精心整理的高质量训练数据:
- 精心整理的12.9万条数据:
- 原始的5.7万条,从各种来源收集,包括美国数学邀请赛(AIME,截至2023年)、MATH、Numina - Math集合和Tulu3 MATH。
- 扩展的7.2万条,主要从OpenR1 - Math - 220k中清理而来。
- 1.3万条难题数据,从ORZ - 32B训练的第一阶段挖掘而来。
有关如何收集数据的详细信息,请参阅我们的论文。
安装与训练脚本
我们在docker文件夹中发布了Dockerfile,以方便复现我们的训练。
要安装软件包,请运行:
pip install -e .
启动ORZ - 32B近端策略优化(PPO)训练
以下是在16个节点上的启动命令。
首先在主节点上运行:
ray start --head
然后在所有其他节点上运行:
ray start --address='<主节点IP>:<主节点端口>'
最后在主节点上运行:
python -m playground.orz_32b_ppo
训练日志将显示在主节点的终端中。
启动ORZ - 0.5B近端策略优化(PPO)训练
你可以在单个A800/H800节点上启动ORZ - 0.5B的PPO训练:
python -m playground.orz_0p5b_ppo
你甚至可以在单个A800/H800 GPU上运行:
python -m playground.orz_0p5b_ppo_1gpu
注意:由于我们不是在多节点设置中,因此不需要像ray start
这样的逻辑。
启动ORZ - 7B近端策略优化(PPO)训练
在4个节点上进行多节点训练:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_7b_ppo
训练日志将显示在主节点的终端中。
启动ORZ - 1.5B近端策略优化(PPO)训练
在2个节点上进行多节点训练:
ray start --head
ray start --address='<主节点IP>:<主节点端口>'
python -m playground.orz_1p5b_ppo
调试设置
在代码中,我们留下了一个环境变量DEBUG_MODE
,供研究人员在调试设置下进行迭代。(目前,我们建议使用python -m playground.orz_0p5b_ppo_1gpu
进行调试。)
调试运行命令示例:
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
DEBUG_MODE=True python -m playground.orz_7b_ppo
如何使用模型
策略模型
由于我们已将聊天模板Jinja放入分词器中,因此策略模型可以像transformers和vllm中的任何聊天模型一样使用。
评判模型
评判模型可以像训练代码中那样加载。
✨ 主要特性
- 采用单控制器训练器设计,灵活且对研究人员友好。
- 将训练和生成置于同一GPU中,以最大限度地提高GPU利用率。
🏆 主要成果
图1 | 开放推理器零(Open - Reasoner - Zero) - {7B, 32B}的评估性能。开放推理器零 - {7B, 32B}在基准测试中的评估性能(16个响应的平均值)。使用与DeepSeek - R1 - Zero - Qwen - 32B相同的基础模型,开放推理器零 - 32B在AIME2024、MATH500和GPQA钻石基准测试中取得了优异的性能,仅需十分之一的训练步骤。
图2 | 开放推理器零(ORZ) - {0.5B, 1.5B, 7B, 32B}在训练奖励和响应长度上的训练时间扩展。训练奖励和响应长度稳步增加,表明在不同模型大小下具有一致的可扩展性。有趣的是,ORZ - 32B的响应长度出现波动,但并未对训练稳定性产生负面影响,凸显了我们极简配方的鲁棒性。
📦 版本发布
[2025/03/31]
我们宣布开放推理器零
取得了一个重要的里程碑:
[2025/02/18]
我们发布了开放推理器零
。作为此次发布的一部分,我们开源了:
💖 致谢
📣 招聘信息
我们正在招聘有才华的研究人员和工程师加入我们的团队。如果您对我们的项目感兴趣,并希望为推理器的扩展直至通用人工智能(AGI)做出贡献,请随时通过hanqer@stepfun.com与我们联系。
🍺 社区讨论
我们有几个微信群来促进讨论和分享,你可以扫描下面的二维码加入最新的群组。

📄 许可证
本项目采用MIT许可证。
📖 引用
@misc{hu2025openreasonerzeroopensourceapproach,
title={Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model},
author={Jingcheng Hu and Yinmin Zhang and Qi Han and Daxin Jiang and Xiangyu Zhang and Heung-Yeung Shum},
year={2025},
eprint={2503.24290},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.24290},
}