🚀 AReaL:面向大语言模型的蚂蚁推理强化学习
AReaL(Ant Reasoning RL)是由蚂蚁科技集团研究团队的强化学习实验室开发的一个开源的全异步强化学习训练系统,专为大型推理模型打造。该系统基于开源项目 RealHF 构建,我们致力于开源,不仅提供模型本身,还提供复现结果所需的训练细节、数据和基础设施。AReaL 的目标是帮助每个人轻松且经济地构建自己的 AI 智能体。我们团队喜欢奶茶,因为它美味、可定制且价格实惠。希望你能像享受现实世界中的奶茶一样喜欢我们的项目(干杯)。
🚀 快速开始
本地训练 Qwen3 1.7B 模型
bash examples/run_async_ppo.sh
模型评估
cd evaluation
python eval_and_aggregate.py \
--model_path ${MODEL_PATH} \
--output_path ${OUTPUT_PATH} \
--data_names aime24,aime25 \
--max_gen_tokens 32768 \
--data_names codeforces,lcb_v5 \
--prompt_type qwen3-think-pure \
--temperature 1.0
✨ 主要特性
AReaL 亮点
- [新增] 异步强化学习:通过算法 - 系统协同设计,AReaL 支持全异步强化学习,实现最快的训练速度!同时还提供多轮智能体强化学习的实验支持。
- 开放且可复现:我们持续发布用于大语言模型强化学习训练的所有代码、数据集和训练配方。
- 可扩展性:AReaL 可以无缝适应不同的计算资源设置,从单节点到 1K 个 GPU 均可。
- 前沿性能:AReaL 可以生成在数学和编码方面具有前沿推理能力的模型。我们也在积极开展智能体任务的研究。
📦 安装指南
请参考 安装文档 进行安装。
💻 使用示例
基础用法
以提升 Qwen3 数学能力为例,请参考 快速开始示例。
高级用法
异步训练关键特性
多轮智能体强化学习训练
AReaL-boba¬≤ 允许你独立定制 数据集、滚动更新行为 和 训练算法,而无需修改复杂的系统级代码。
我们展示了一个开发多轮数学智能体进行强化学习训练的简单示例。如果你想实现自己的智能体强化学习项目,请参考 逐步指南。
📚 详细文档
资源
基准测试和复现
复现 boba¬≤ 代码模型
基准训练吞吐量脚本
基准训练吞吐量脚本
定制指南
系统代码详解
🔧 技术细节
异步强化学习训练概述
在同步强化学习训练过程中,生成步骤必须等待大语言模型输出批次中最长的序列完成。由于大语言模型输出长度的差异,同步强化学习系统会出现大量 GPU 空闲时间,导致训练效率低下。一些近期的工作(DeepCoder,Intellect)提出将单个训练步骤与单个生成步骤重叠以加速训练。然而,最大的瓶颈仍然存在:批次内的样本仍然来自同一模型版本,导致等待和 GPU 空闲时间。
AReaL 采用了一种全异步强化学习训练框架,将生成与训练完全解耦。在 AReaL 中,大语言模型生成以流式方式运行,每个滚动更新工作器连续产生输出而无需等待。同时,训练器工作器在收到训练批次后进行并行模型更新。
AReaL 遵循系统 - 算法协同设计原则:在系统方面,AReaL 有效地同步模型参数并仔细控制每个训练样本的陈旧性;在算法方面,AReaL 改进了 PPO 的目标函数,使异步强化学习更加稳定。
我们比较了基于 AReaL-boba¬≤ 系统的异步强化学习训练与经典同步强化学习训练(我们采用了最快的开源系统 veRL,2025 年 5 月 7 日的主分支)在不同模型大小和不同数量 H800 GPU 上的可扩展性。AReaL 在训练吞吐量方面表现出了显著提高的扩展能力。这部分也是由于 AReaL 将训练和生成解耦,减少了 GPU 内存碎片。
AReaL-boba¬≤ 实现的前沿代码生成模型
我们使用 Qwen3 作为基础模型。经过异步强化学习训练后,我们在 LiveCodeBench、Codeforces 和 CodeContests 基准测试中取得了最优结果。
模型 (8B) |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3 - 8B |
58.8 |
1879/96.7% |
31.4 |
DeepSeek - R1 - 0528 - Qwen3 - 8B |
58.4 |
1945/97.3% |
31.0 |
AReaL - boba² - 8B - Open |
62.0 |
1933/97.2% |
41.4 |
AReaL - boba² - 8B |
63.0 |
1962/97.5% |
40.8 |
模型 (14B) |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3 - 14B |
65.4 |
1978/97.7% |
38.3 |
DeepCoder - 14B - Preview |
60.6 |
1936/95.3% |
40.1 |
AReaL - boba² - 14B - Open |
67.3 |
1990/97.8% |
46.2 |
AReaL - boba² - 14B |
69.1 |
2044/98.2% |
46.1 |
更大的模型 |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3 - 235B |
70.7 |
2056 |
- |
DeepSeek - R1 |
64.3 |
2029 |
- |
OpenAI - o3 - mini (Medium) |
66.3 |
2036 |
- |
表 1:编码任务性能比较。AReaL - boba¬≤ - 8B/14B - Open 表示在开源数据上的训练结果。AReaL - boba¬≤ - 8B/14B 模型使用额外的少量内部数据进行训练,并在 LiveCodeBench、Codeforces 和 CodeContests 上取得了最优性能。
📄 许可证
本项目采用 Apache - 2.0 许可证。
未来计划
AReaL 正在积极开发中。我们计划每周进行小版本发布,每月进行大版本发布。非常欢迎社区参与和贡献。我们也正在招聘实习生和全职员工,美国和中国均有开放职位。
系统开发
- [x] 支持 SGLang
- [x] 针对编码问题进行强化学习训练
- [x] 异步生成和强化学习训练
- [ ] 分布式训练优化:针对混合专家模型(MOE)的专家并行和零气泡流水线
- [ ] 视觉语言模型(VLM)的强化学习
- [x] 多轮智能体强化学习
- [ ] 函数调用和工具使用
算法开发
- [x] 1.5B 和 7B 模型的强化学习训练配方
- [x] 32B 模型的完整强化学习训练配方
- [ ] 样本高效的多任务强化学习算法
- [ ] 通过端到端强化学习实现智能体能力
- [ ] 更大混合专家模型(MOE)的稳定强化学习训练
致谢
我们要指出,主要贡献者来自蚂蚁科技集团研究团队的强化学习实验室和清华大学交叉信息研究院。
我们的团队还得到了蚂蚁科技集团研究团队的数据智能实验室的数据支持,以及蚂蚁集团超级计算技术(SCT)团队的大力协助,特别是在大规模集群运维方面。
我们也感谢社区中的所有开拓性工作,特别是 OpenPsi 公司的 ReaLHF 项目以及其他项目,包括但不限于 DeepScaleR、[Open - Reasoner - Zero](https://github.com/Open - Reasoner - Zero/Open - Reasoner - Zero/tree/main)、OpenRLHF、VeRL、SGLang、QwQ、[Light - R1](https://github.com/Qihoo360/Light - R1) 和 [DAPO](https://github.com/BytedTsinghua - SIA/DAPO)。
引用
@inproceedings{mei2025real,
author = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi},
title = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation},
booktitle = {Proceedings of the Eighth Conference on Machine Learning and Systems,
MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025},
publisher = {mlsys.org},
year = {2025},
}
@misc{fu2025areal,
title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning},
author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu},
year={2025},
eprint={2505.24298},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.24298},
}
相关链接