Open-Reasoner-Zero-32B开源模型 - 免费实现大规模推理导向强化学习，易用又可扩展

首页

Open Reasoner Zero 32B

由 Open-Reasoner-Zero 开发

首个专注于可扩展性、简洁性和易用性的大规模推理导向强化学习的开源实现

大型语言模型

Transformers

开源协议:MIT #数学推理强化 #多规模训练 #开源强化学习

下载量 498

发布时间 : 2/18/2025

模型简介

开放推理者零号是基于基础模型规模化强化学习的开源方案，专注于推理能力的提升，适用于数学推理等高难度任务。

模型特点

规模化强化学习

支持从5亿到320亿参数规模的模型训练，展示一致的扩展能力

高效训练

仅需十分之一的训练步数即可达到或超越同类模型性能

开源完整

公开源代码、参数设置、训练数据和模型权重

资源优化

提供单GPU训练方案，降低研究门槛

模型能力

数学问题求解

复杂推理

多步问题解答

高难度竞赛题解答

使用案例

教育

数学竞赛题解答

解答AIME等数学竞赛题目

在AIME2024上达到48%准确率

数学学习辅助

提供分步数学问题解答

研究

强化学习研究

作为规模化强化学习的基准模型

🚀 开放推理器零（Open Reasoner Zero）

开放推理器零（Open Reasoner Zero）是首个专注于可扩展性、简易性和可访问性的大规模面向推理的强化学习训练的开源实现。它通过发布源代码、参数设置、训练数据和模型权重，推动更多人参与到人工智能通用智能（AGI）的研究中。

🚀 快速开始

数据

我们在data文件夹中发布了所有精心整理的高质量训练数据：

精心整理的12.9万条数据：
- 原始的5.7万条，从各种来源收集，包括美国数学邀请赛（AIME，截至2023年）、MATH、Numina - Math集合和Tulu3 MATH。
- 扩展的7.2万条，主要从OpenR1 - Math - 220k中清理而来。
1.3万条难题数据，从ORZ - 32B训练的第一阶段挖掘而来。

有关如何收集数据的详细信息，请参阅我们的论文。

安装与训练脚本

我们在docker文件夹中发布了Dockerfile，以方便复现我们的训练。

要安装软件包，请运行：

pip install -e .

启动ORZ - 32B近端策略优化（PPO）训练

以下是在16个节点上的启动命令。

首先在主节点上运行：

ray start --head
# 你将看到如下日志：
# 下一步
#  要将另一个节点添加到这个Ray集群，请运行
#    ray start --address='<主节点IP>:<主节点端口>'

然后在所有其他节点上运行：

ray start --address='<主节点IP>:<主节点端口>' # <主节点IP>和<主节点端口>来自上述日志！

最后在主节点上运行：

python -m playground.orz_32b_ppo

训练日志将显示在主节点的终端中。

启动ORZ - 0.5B近端策略优化（PPO）训练

你可以在单个A800/H800节点上启动ORZ - 0.5B的PPO训练：

python -m playground.orz_0p5b_ppo

你甚至可以在单个A800/H800 GPU上运行：

python -m playground.orz_0p5b_ppo_1gpu

注意：由于我们不是在多节点设置中，因此不需要像ray start这样的逻辑。

启动ORZ - 7B近端策略优化（PPO）训练

在4个节点上进行多节点训练：

# 为多节点训练进行设置
ray start --head # 在主节点上
ray start --address='<主节点IP>:<主节点端口>' # 然后在其他节点上

# 然后在主节点上运行：
python -m playground.orz_7b_ppo

训练日志将显示在主节点的终端中。

启动ORZ - 1.5B近端策略优化（PPO）训练

在2个节点上进行多节点训练：

# 为多节点训练进行设置
ray start --head # 在主节点上
ray start --address='<主节点IP>:<主节点端口>' # 然后在其他节点上
# 然后在主节点上运行：
python -m playground.orz_1p5b_ppo

调试设置

在代码中，我们留下了一个环境变量DEBUG_MODE，供研究人员在调试设置下进行迭代。（目前，我们建议使用python -m playground.orz_0p5b_ppo_1gpu进行调试。）

调试运行命令示例：

# 注意：仅用于调试，不是最终设置！

## 在单个GPU上使用`EleutherAI/pythia - 14m`进行调试命令
DEBUG_MODE=True python -m playground.orz_14m_ppo_mini
## 在单个节点（8个GPU）上使用`Qwen/Qwen2.5 - 7B`进行调试命令
DEBUG_MODE=True python -m playground.orz_7b_ppo

如何使用模型

策略模型

由于我们已将聊天模板Jinja放入分词器中，因此策略模型可以像transformers和vllm中的任何聊天模型一样使用。

评判模型

评判模型可以像训练代码中那样加载。

✨ 主要特性

采用单控制器训练器设计，灵活且对研究人员友好。
将训练和生成置于同一GPU中，以最大限度地提高GPU利用率。

🏆 主要成果

图1 | 开放推理器零（Open - Reasoner - Zero） - {7B, 32B}的评估性能。开放推理器零 - {7B, 32B}在基准测试中的评估性能（16个响应的平均值）。使用与DeepSeek - R1 - Zero - Qwen - 32B相同的基础模型，开放推理器零 - 32B在AIME2024、MATH500和GPQA钻石基准测试中取得了优异的性能，仅需十分之一的训练步骤。

图2 | 开放推理器零（ORZ） - {0.5B, 1.5B, 7B, 32B}在训练奖励和响应长度上的训练时间扩展。训练奖励和响应长度稳步增加，表明在不同模型大小下具有一致的可扩展性。有趣的是，ORZ - 32B的响应长度出现波动，但并未对训练稳定性产生负面影响，凸显了我们极简配方的鲁棒性。

📦 版本发布

[2025/03/31]

我们宣布开放推理器零取得了一个重要的里程碑：

🌊 更新的论文，包含新的结果。
🔭 易于使用的训练脚本：
- ORZ - 1.5B训练脚本和ORZ - 0.5B训练脚本（图2中的主要结果）。
- 最小资源训练脚本：ORZ - 0.5B可以在单个A800/H800 GPU上运行！
🤩 更新的精选数据集：
- 总共12.9万条数据：
  - 原始的5.7万条数据。
  - 扩展的7.2万条数据。
- 1.3万条难题数据，从上述12.9万条数据中挖掘而来。
  - 用于ORZ - 32B训练的“退火”阶段：AIME2024从约41%提升到约48%！
🤗 更多Hugging Face模型：
- 更新的Hugging Face模型：开放推理器零 - 7B和开放推理器零 - 32B。
- 发布的Hugging Face模型：开放推理器零 - 1.5B和开放推理器零 - 0.5B。
🚀 用于深入研究的全套评判模型：开放推理器零评判模型 - {0.5B, 1.5B, 7B, 32B}。

[2025/02/18]

我们发布了开放推理器零。作为此次发布的一部分，我们开源了：

🌊 论文（进行中），关于我们在推理器零训练中的全面分析和见解。
🤗 Hugging Face模型开放推理器零 - 7B和开放推理器零 - 32B。
🎁 我们精心整理的5.7万条训练数据。
📄 训练脚本，让你开启自己的推理器零之旅！

💖 致谢

这项工作得到了StepFun和清华大学提供的计算资源和宝贵反馈的支持。
我们的训练框架基于OpenRLHF、vllm、DeepSpeed和ray构建。
我们的模型基于基础模型的Qwen2.5系列，包括Qwen2.5 - 0.5B、Qwen2.5 - 1.5B、Qwen2.5 - 7B和Qwen2.5 - 32B。
我们感谢Project Numina、Tulu3和OpenR1 - Math - 220k提供的开源数据。

📣 招聘信息

我们正在招聘有才华的研究人员和工程师加入我们的团队。如果您对我们的项目感兴趣，并希望为推理器的扩展直至通用人工智能（AGI）做出贡献，请随时通过hanqer@stepfun.com与我们联系。

🍺 社区讨论

我们有几个微信群来促进讨论和分享，你可以扫描下面的二维码加入最新的群组。

微信群二维码

📄 许可证

本项目采用MIT许可证。

📖 引用

@misc{hu2025openreasonerzeroopensourceapproach,
      title={Open-Reasoner-Zero: An Open Source Approach to Scaling Up Reinforcement Learning on the Base Model}, 
      author={Jingcheng Hu and Yinmin Zhang and Qi Han and Daxin Jiang and Xiangyu Zhang and Heung-Yeung Shum},
      year={2025},
      eprint={2503.24290},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2503.24290}, 
}