AReaL-boba-2-8B開源推理模型 - 螞蟻科技打造快速訓練且性能前沿

首頁

Areal Boba 2 8B

由inclusionAI開發

AReaL是由螞蟻科技集團開發的異步強化學習訓練系統，專為大型推理模型設計，支持快速訓練和前沿性能。

大型語言模型

Transformers

開源協議:Apache-2.0 #異步強化學習 #大語言模型推理 #代碼生成優化

下載量 1,294

發布時間 : 6/3/2025

模型概述

AReaL是一個全異步強化學習訓練系統，旨在幫助用戶輕鬆構建AI智能體，特別擅長提升大型語言模型在數學和編碼方面的推理能力。

模型特點

異步強化學習

通過算法-系統協同設計，支持全異步強化學習，實現最快的訓練速度。

開放可復現

發佈所有代碼、數據集和訓練配方，確保結果可復現。

高可擴展性

適應不同計算資源設置，從單節點到1K個GPU均可無縫擴展。

前沿性能

在數學和編碼任務中表現出色，支持多輪智能體強化學習。

模型能力

代碼生成

數學推理

多輪對話

強化學習訓練

使用案例

編程輔助

代碼自動補全

幫助開發者快速生成代碼片段，提高編程效率。

在LiveCodeBench v5上達到63.0分

算法競賽解題

解決Codeforces等平臺的編程題目。

在Codeforces上達到1962分（97.5%）

數學推理

數學問題求解

解決複雜的數學問題和證明。

🚀 AReaL：面向大語言模型的螞蟻推理強化學習

AReaL（Ant Reasoning RL）是由螞蟻科技集團研究團隊的強化學習實驗室開發的一個開源的全異步強化學習訓練系統，專為大型推理模型打造。該系統基於開源項目 RealHF 構建，我們致力於開源，不僅提供模型本身，還提供復現結果所需的訓練細節、數據和基礎設施。AReaL 的目標是幫助每個人輕鬆且經濟地構建自己的 AI 智能體。我們團隊喜歡奶茶，因為它美味、可定製且價格實惠。希望你能像享受現實世界中的奶茶一樣喜歡我們的項目（乾杯）。

🚀 快速開始

本地訓練 Qwen3 1.7B 模型

bash examples/run_async_ppo.sh

模型評估

cd evaluation
# 評估模型
python eval_and_aggregate.py \
  --model_path ${MODEL_PATH} \
  --output_path ${OUTPUT_PATH} \
  --data_names aime24,aime25 \
  --max_gen_tokens 32768 \
  --data_names codeforces,lcb_v5 \
  --prompt_type qwen3-think-pure \
  --temperature 1.0

✨ 主要特性

AReaL 亮點

[新增] 異步強化學習：通過算法 - 系統協同設計，AReaL 支持全異步強化學習，實現最快的訓練速度！同時還提供多輪智能體強化學習的實驗支持。
開放且可復現：我們持續發佈用於大語言模型強化學習訓練的所有代碼、數據集和訓練配方。
可擴展性：AReaL 可以無縫適應不同的計算資源設置，從單節點到 1K 個 GPU 均可。
前沿性能：AReaL 可以生成在數學和編碼方面具有前沿推理能力的模型。我們也在積極開展智能體任務的研究。

📦 安裝指南

請參考安裝文檔進行安裝。

💻 使用示例

基礎用法

以提升 Qwen3 數學能力為例，請參考快速開始示例。

高級用法

異步訓練關鍵特性

多輪智能體強化學習訓練

AReaL-boba¬≤ 允許你獨立定製數據集、滾動更新行為和訓練算法，而無需修改複雜的系統級代碼。

我們展示了一個開發多輪數學智能體進行強化學習訓練的簡單示例。如果你想實現自己的智能體強化學習項目，請參考逐步指南。

📚 詳細文檔

資源

基準測試和復現

復現 boba¬≤ 代碼模型

模型權重：8B 代碼模型，14B 代碼模型，8B 開源代碼模型，14B 開源代碼模型
評估指南
訓練配置和說明

基準訓練吞吐量腳本

定製指南

系統代碼詳解

🔧 技術細節

異步強化學習訓練概述

在同步強化學習訓練過程中，生成步驟必須等待大語言模型輸出批次中最長的序列完成。由於大語言模型輸出長度的差異，同步強化學習系統會出現大量 GPU 空閒時間，導致訓練效率低下。一些近期的工作（DeepCoder，Intellect）提出將單個訓練步驟與單個生成步驟重疊以加速訓練。然而，最大的瓶頸仍然存在：批次內的樣本仍然來自同一模型版本，導致等待和 GPU 空閒時間。

AReaL 採用了一種全異步強化學習訓練框架，將生成與訓練完全解耦。在 AReaL 中，大語言模型生成以流式方式運行，每個滾動更新工作器連續產生輸出而無需等待。同時，訓練器工作器在收到訓練批次後進行並行模型更新。

AReaL 遵循系統 - 算法協同設計原則：在系統方面，AReaL 有效地同步模型參數並仔細控制每個訓練樣本的陳舊性；在算法方面，AReaL 改進了 PPO 的目標函數，使異步強化學習更加穩定。

我們比較了基於 AReaL-boba¬≤ 系統的異步強化學習訓練與經典同步強化學習訓練（我們採用了最快的開源系統 veRL，2025 年 5 月 7 日的主分支）在不同模型大小和不同數量 H800 GPU 上的可擴展性。AReaL 在訓練吞吐量方面表現出了顯著提高的擴展能力。這部分也是由於 AReaL 將訓練和生成解耦，減少了 GPU 內存碎片。

AReaL-boba¬≤ 實現的前沿代碼生成模型

我們使用 Qwen3 作為基礎模型。經過異步強化學習訓練後，我們在 LiveCodeBench、Codeforces 和 CodeContests 基準測試中取得了最優結果。

模型 (8B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 8B	58.8	1879/96.7%	31.4
DeepSeek - R1 - 0528 - Qwen3 - 8B	58.4	1945/97.3%	31.0
AReaL - boba¬≤ - 8B - Open	62.0	1933/97.2%	41.4
AReaL - boba¬≤ - 8B	63.0	1962/97.5%	40.8

模型 (14B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 14B	65.4	1978/97.7%	38.3
DeepCoder - 14B - Preview	60.6	1936/95.3%	40.1
AReaL - boba¬≤ - 14B - Open	67.3	1990/97.8%	46.2
AReaL - boba¬≤ - 14B	69.1	2044/98.2%	46.1

更大的模型	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3 - 235B	70.7	2056	-
DeepSeek - R1	64.3	2029	-
OpenAI - o3 - mini (Medium)	66.3	2036	-

表 1：編碼任務性能比較。AReaL - boba¬≤ - 8B/14B - Open 表示在開源數據上的訓練結果。AReaL - boba¬≤ - 8B/14B 模型使用額外的少量內部數據進行訓練，並在 LiveCodeBench、Codeforces 和 CodeContests 上取得了最優性能。

📄 許可證

本項目採用 Apache - 2.0 許可證。

未來計劃

AReaL 正在積極開發中。我們計劃每週進行小版本發佈，每月進行大版本發佈。非常歡迎社區參與和貢獻。我們也正在招聘實習生和全職員工，美國和中國均有開放職位。

系統開發

[x] 支持 SGLang
[x] 針對編碼問題進行強化學習訓練
[x] 異步生成和強化學習訓練
[ ] 分佈式訓練優化：針對混合專家模型（MOE）的專家並行和零氣泡流水線
[ ] 視覺語言模型（VLM）的強化學習
[x] 多輪智能體強化學習
[ ] 函數調用和工具使用

算法開發

[x] 1.5B 和 7B 模型的強化學習訓練配方
[x] 32B 模型的完整強化學習訓練配方
[ ] 樣本高效的多任務強化學習算法
[ ] 通過端到端強化學習實現智能體能力
[ ] 更大混合專家模型（MOE）的穩定強化學習訓練

致謝

我們要指出，主要貢獻者來自螞蟻科技集團研究團隊的強化學習實驗室和清華大學交叉信息研究院。

我們的團隊還得到了螞蟻科技集團研究團隊的數據智能實驗室的數據支持，以及螞蟻集團超級計算技術（SCT）團隊的大力協助，特別是在大規模集群運維方面。

我們也感謝社區中的所有開拓性工作，特別是 OpenPsi 公司的 ReaLHF 項目以及其他項目，包括但不限於 DeepScaleR、[Open - Reasoner - Zero](https://github.com/Open - Reasoner - Zero/Open - Reasoner - Zero/tree/main)、OpenRLHF、VeRL、SGLang、QwQ、[Light - R1](https://github.com/Qihoo360/Light - R1) 和 [DAPO](https://github.com/BytedTsinghua - SIA/DAPO)。

引用

@inproceedings{mei2025real,
  author       = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi},
  title        = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation},
  booktitle    = {Proceedings of the Eighth Conference on Machine Learning and Systems,
                  MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025},
  publisher    = {mlsys.org},
  year         = {2025},
}

@misc{fu2025areal,
      title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning}, 
      author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu},
      year={2025},
      eprint={2505.24298},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.24298}, 
}