AReaL-boba-2-8B开源推理模型 - 蚂蚁科技打造快速训练且性能前沿

首页

Areal Boba 2 8B

由 inclusionAI 开发

AReaL是由蚂蚁科技集团开发的异步强化学习训练系统，专为大型推理模型设计，支持快速训练和前沿性能。

大型语言模型

Transformers

开源协议:Apache-2.0 #异步强化学习 #大语言模型推理 #代码生成优化

下载量 1,294

发布时间 : 6/3/2025

模型简介

AReaL是一个全异步强化学习训练系统，旨在帮助用户轻松构建AI智能体，特别擅长提升大型语言模型在数学和编码方面的推理能力。

模型特点

异步强化学习

通过算法-系统协同设计，支持全异步强化学习，实现最快的训练速度。

开放可复现

发布所有代码、数据集和训练配方，确保结果可复现。

高可扩展性

适应不同计算资源设置，从单节点到1K个GPU均可无缝扩展。

前沿性能

在数学和编码任务中表现出色，支持多轮智能体强化学习。

模型能力

代码生成

数学推理

多轮对话

强化学习训练

使用案例

编程辅助

代码自动补全

帮助开发者快速生成代码片段，提高编程效率。

在LiveCodeBench v5上达到63.0分

算法竞赛解题

解决Codeforces等平台的编程题目。

在Codeforces上达到1962分（97.5%）

数学推理

数学问题求解

解决复杂的数学问题和证明。

🚀 AReaL：面向大语言模型的蚂蚁推理强化学习

AReaL（Ant Reasoning RL）是由蚂蚁科技集团研究团队的强化学习实验室开发的一个开源的全异步强化学习训练系统，专为大型推理模型打造。该系统基于开源项目 RealHF 构建，我们致力于开源，不仅提供模型本身，还提供复现结果所需的训练细节、数据和基础设施。AReaL 的目标是帮助每个人轻松且经济地构建自己的 AI 智能体。我们团队喜欢奶茶，因为它美味、可定制且价格实惠。希望你能像享受现实世界中的奶茶一样喜欢我们的项目（干杯）。

🚀 快速开始

本地训练 Qwen3 1.7B 模型

bash examples/run_async_ppo.sh

模型评估

cd evaluation
# 评估模型
python eval_and_aggregate.py \
  --model_path ${MODEL_PATH} \
  --output_path ${OUTPUT_PATH} \
  --data_names aime24,aime25 \
  --max_gen_tokens 32768 \
  --data_names codeforces,lcb_v5 \
  --prompt_type qwen3-think-pure \
  --temperature 1.0

✨ 主要特性

AReaL 亮点

[新增] 异步强化学习：通过算法 - 系统协同设计，AReaL 支持全异步强化学习，实现最快的训练速度！同时还提供多轮智能体强化学习的实验支持。
开放且可复现：我们持续发布用于大语言模型强化学习训练的所有代码、数据集和训练配方。
可扩展性：AReaL 可以无缝适应不同的计算资源设置，从单节点到 1K 个 GPU 均可。
前沿性能：AReaL 可以生成在数学和编码方面具有前沿推理能力的模型。我们也在积极开展智能体任务的研究。

📦 安装指南

请参考安装文档进行安装。

💻 使用示例

基础用法

以提升 Qwen3 数学能力为例，请参考快速开始示例。

高级用法

异步训练关键特性

多轮智能体强化学习训练

AReaL-boba¬≤ 允许你独立定制数据集、滚动更新行为和训练算法，而无需修改复杂的系统级代码。

我们展示了一个开发多轮数学智能体进行强化学习训练的简单示例。如果你想实现自己的智能体强化学习项目，请参考逐步指南。

📚 详细文档

资源

基准测试和复现

复现 boba¬≤ 代码模型

模型权重：8B 代码模型，14B 代码模型，8B 开源代码模型，14B 开源代码模型
评估指南
训练配置和说明

基准训练吞吐量脚本

定制指南

系统代码详解

🔧 技术细节

异步强化学习训练概述

在同步强化学习训练过程中，生成步骤必须等待大语言模型输出批次中最长的序列完成。由于大语言模型输出长度的差异，同步强化学习系统会出现大量 GPU 空闲时间，导致训练效率低下。一些近期的工作（DeepCoder，Intellect）提出将单个训练步骤与单个生成步骤重叠以加速训练。然而，最大的瓶颈仍然存在：批次内的样本仍然来自同一模型版本，导致等待和 GPU 空闲时间。

AReaL 采用了一种全异步强化学习训练框架，将生成与训练完全解耦。在 AReaL 中，大语言模型生成以流式方式运行，每个滚动更新工作器连续产生输出而无需等待。同时，训练器工作器在收到训练批次后进行并行模型更新。

AReaL 遵循系统 - 算法协同设计原则：在系统方面，AReaL 有效地同步模型参数并仔细控制每个训练样本的陈旧性；在算法方面，AReaL 改进了 PPO 的目标函数，使异步强化学习更加稳定。

我们比较了基于 AReaL-boba¬≤ 系统的异步强化学习训练与经典同步强化学习训练（我们采用了最快的开源系统 veRL，2025 年 5 月 7 日的主分支）在不同模型大小和不同数量 H800 GPU 上的可扩展性。AReaL 在训练吞吐量方面表现出了显著提高的扩展能力。这部分也是由于 AReaL 将训练和生成解耦，减少了 GPU 内存碎片。

AReaL-boba¬≤ 实现的前沿代码生成模型

我们使用 Qwen3 作为基础模型。经过异步强化学习训练后，我们在 LiveCodeBench、Codeforces 和 CodeContests 基准测试中取得了最优结果。

模型 (8B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 8B	58.8	1879/96.7%	31.4
DeepSeek - R1 - 0528 - Qwen3 - 8B	58.4	1945/97.3%	31.0
AReaL - boba¬≤ - 8B - Open	62.0	1933/97.2%	41.4
AReaL - boba¬≤ - 8B	63.0	1962/97.5%	40.8

模型 (14B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 14B	65.4	1978/97.7%	38.3
DeepCoder - 14B - Preview	60.6	1936/95.3%	40.1
AReaL - boba¬≤ - 14B - Open	67.3	1990/97.8%	46.2
AReaL - boba¬≤ - 14B	69.1	2044/98.2%	46.1

更大的模型	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 235B	70.7	2056	-
DeepSeek - R1	64.3	2029	-
OpenAI - o3 - mini (Medium)	66.3	2036	-

表 1：编码任务性能比较。AReaL - boba¬≤ - 8B/14B - Open 表示在开源数据上的训练结果。AReaL - boba¬≤ - 8B/14B 模型使用额外的少量内部数据进行训练，并在 LiveCodeBench、Codeforces 和 CodeContests 上取得了最优性能。

📄 许可证

本项目采用 Apache - 2.0 许可证。

未来计划

AReaL 正在积极开发中。我们计划每周进行小版本发布，每月进行大版本发布。非常欢迎社区参与和贡献。我们也正在招聘实习生和全职员工，美国和中国均有开放职位。

系统开发

[x] 支持 SGLang
[x] 针对编码问题进行强化学习训练
[x] 异步生成和强化学习训练
[ ] 分布式训练优化：针对混合专家模型（MOE）的专家并行和零气泡流水线
[ ] 视觉语言模型（VLM）的强化学习
[x] 多轮智能体强化学习
[ ] 函数调用和工具使用

算法开发

[x] 1.5B 和 7B 模型的强化学习训练配方
[x] 32B 模型的完整强化学习训练配方
[ ] 样本高效的多任务强化学习算法
[ ] 通过端到端强化学习实现智能体能力
[ ] 更大混合专家模型（MOE）的稳定强化学习训练

致谢

我们要指出，主要贡献者来自蚂蚁科技集团研究团队的强化学习实验室和清华大学交叉信息研究院。

我们的团队还得到了蚂蚁科技集团研究团队的数据智能实验室的数据支持，以及蚂蚁集团超级计算技术（SCT）团队的大力协助，特别是在大规模集群运维方面。

我们也感谢社区中的所有开拓性工作，特别是 OpenPsi 公司的 ReaLHF 项目以及其他项目，包括但不限于 DeepScaleR、[Open - Reasoner - Zero](https://github.com/Open - Reasoner - Zero/Open - Reasoner - Zero/tree/main)、OpenRLHF、VeRL、SGLang、QwQ、[Light - R1](https://github.com/Qihoo360/Light - R1) 和 [DAPO](https://github.com/BytedTsinghua - SIA/DAPO)。

引用

@inproceedings{mei2025real,
  author       = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi},
  title        = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation},
  booktitle    = {Proceedings of the Eighth Conference on Machine Learning and Systems,
                  MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025},
  publisher    = {mlsys.org},
  year         = {2025},
}

@misc{fu2025areal,
      title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning}, 
      author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu},
      year={2025},
      eprint={2505.24298},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.24298}, 
}