🚀 「AReaL」: 大規模言語モデル向けの蟻推論強化学習
AReaL(蟻推論強化学習)は、蟻リサーチのRLラボで開発された、大規模推論モデル用のオープンソースの完全非同期強化学習トレーニングシステムです。オープンソースプロジェクトのRealHFをベースに構築され、モデル自体とともに、結果を再現するために必要なトレーニングの詳細、データ、インフラを提供することで、完全にオープンソースにコミットしています。AReaLは、誰もが簡単かつ安価に独自のAIエージェントを構築できるように支援することを目指しています。私たちのチームは、美味しく、カスタマイズ可能で、手頃な価格のミルクティーが好きです。皆さんが現実のミルクティーを楽しむように、このプロジェクトを楽しんでいただければ幸いです。
| 論文 | ドキュメント | DeepWikiで質問 | モデルとデータ |
コード: https://github.com/inclusionAI/AReaL
🚀 クイックスタート
ローカルでのQwen3 1.7Bのトレーニング
bash examples/run_async_ppo.sh
評価
cd evaluation
python eval_and_aggregate.py \
--model_path ${MODEL_PATH} \
--output_path ${OUTPUT_PATH} \
--data_names aime24,aime25 \
--max_gen_tokens 32768 \
--data_names codeforces,lcb_v5 \
--prompt_type qwen3-think-pure \
--temperature 1.0
✨ 主な機能
AReaLの特長
- [新機能] 非同期強化学習: アルゴリズムとシステムの共同設計により、AReaLは最速のトレーニングを実現する完全非同期強化学習をサポートします!また、多ターンエージェント型強化学習の実験的サポートも提供しています。
- オープンかつ再現可能: 大規模言語モデルの強化学習トレーニングに必要なすべてのコード、データセット、トレーニングレシピを継続的に公開しています。
- スケーラビリティ: AReaLは、単一ノードから1K GPUまでのさまざまな計算リソース設定にシームレスに適応できます。
- 最先端の性能: AReaLは、数学とコーディングにおいて最先端の推論能力を持つモデルを生成できます。また、エージェント型タスクにも積極的に取り組んでいます。
📦 インストール
インストールに関する詳細な手順は、こちらのドキュメントを参照してください。
💻 使用例
基本的な使用法
上記の「クイックスタート」セクションに記載されているコードを参照してください。
高度な使用法
非同期トレーニングに関する以下の主要機能についてのチュートリアルとコード解説を強調します。
📚 ドキュメント
リリースのハイライト
AReaL-boba¬≤ (A-ReaL-double-boba) リリースでは、最も重要な3つの機能を強調しています。
- システムと強化学習アルゴリズムの共同設計による完全非同期強化学習トレーニングパイプライン。パフォーマンスを低下させることなく、2.77倍以上の高速化を実現します。ベンチマークスクリプトと説明はこちらを参照してください。
- SOTAのコード生成モデル、つまりLCB-v5で69.1点を獲得した14Bモデル。再現するには、設定ファイルと説明を参照してください。
- 多ターンエージェント型強化学習トレーニングの実験的サポート。完全な例はこちらを参照してください。
システムの完全な設計とより詳細なトレーニング情報については、v0.3のブログと研究論文を参照してください。
非同期強化学習トレーニングの概要
同期型強化学習トレーニングプロセスでは、生成ステップは、大規模言語モデルの出力バッチ内で最長のシーケンスが完了するまで待機する必要があります。大規模推論モデルの出力長が異なるため、同期型強化学習システムは大量のGPUアイドル時間に苦しみ、トレーニングの非効率化につながります。最近のいくつかの研究(DeepCoder、Intellect)では、単一のトレーニングステップと単一の生成ステップを重ねることでトレーニングを高速化することが提案されています。しかし、最大のボトルネックは変わらず、バッチ内のサンプルは依然として同じモデルバージョンからのものであり、待機時間とGPUアイドル時間が発生します。
AReaLは、生成とトレーニングを完全に分離する完全非同期強化学習トレーニングフレームワークを採用しています。AReaLでは、大規模言語モデルの生成はストリーミング方式で実行され、各ロールアウトワーカーは待機することなく継続的に出力を生成します。一方、トレーナーワーカーは、トレーニングバッチを受け取ると並列にモデルの更新を行います。
AReaL-boba¬≤によるSOTAコード生成モデル
Qwen3をベースモデルとして使用しています。非同期強化学習トレーニングの後、LiveCodeBench、Codeforces、CodeContestsのベンチマークでSOTAの結果を達成しています。
モデル (8B) |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3-8B |
58.8 |
1879/96.7% |
31.4 |
DeepSeek-R1-0528-Qwen3-8B |
58.4 |
1945/97.3% |
31.0 |
AReaL-boba²-8B-Open |
62.0 |
1933/97.2% |
41.4 |
AReaL-boba²-8B |
63.0 |
1962/97.5% |
40.8 |
モデル (14B) |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3-14B |
65.4 |
1978/97.7% |
38.3 |
DeepCoder-14B-Preview |
60.6 |
1936/95.3% |
40.1 |
AReaL-boba²-14B-Open |
67.3 |
1990/97.8% |
46.2 |
AReaL-boba²-14B |
69.1 |
2044/98.2% |
46.1 |
より大きなモデル |
LiveCodeBench v5 (2024.10 - 2025.2) |
Codeforces |
CodeContests |
Qwen3-235B |
70.7 |
2056 |
- |
DeepSeek-R1 |
64.3 |
2029 |
- |
OpenAI-o3-mini (Medium) |
66.3 |
2036 |
- |
表1: コーディングタスクのパフォーマンス比較。AReaL-boba¬≤-8B/14B-Openはオープンソースデータでのトレーニング結果を示します。AReaL-boba¬≤-8B/14Bモデルは、追加の少量の内部データでトレーニングされ、LiveCodeBench、Codeforces、CodeContestsでSOTAのパフォーマンスを達成しています。
多ターンエージェントの強化学習トレーニング
AReaL-boba¬≤を使用すると、データセット、ロールアウト動作、トレーニングアルゴリズムを独立してカスタマイズでき、大規模なシステムレベルのコードを変更する必要はありません。
特に、多ターン数学エージェントを開発して強化学習トレーニングを行う簡単な例を示しています。独自のエージェント型強化学習プロジェクトを実装したい場合は、以下の学習曲線を参照し、ステップバイステップガイドを参照してください。
🔧 技術詳細
リソース
クイックスタート
ベンチマークと再現
カスタマイズガイド
システムコード解説
将来の計画
AReaLは現在積極的に開発中です。毎週マイナーリリース、毎月メジャーリリースを予定しています。コミュニティの関与と貢献を大歓迎しています。また、インターンシップと正社員を募集しており、米国と中国の両方で求人があります。
既に決まっている研究開発計画は以下の通りです。
システム開発
- [x] SGLangのサポート
- [x] コーディング問題を用いた強化学習トレーニング
- [x] 非同期生成と強化学習トレーニング
- [ ] 分散トレーニングの最適化: MOEのエキスパートパラレルとゼロバブルパイプライニング
- [ ] ビジョン言語モデル (VLM) の強化学習
- [x] 多ターンエージェント型強化学習
- [ ] 関数呼び出しとツールの使用
アルゴリズム開発
- [x] 1.5Bと7Bモデルの強化学習トレーニングレシピ
- [x] 32Bモデルの完全な強化学習トレーニングレシピ
- [ ] サンプル効率の高いマルチタスク強化学習アルゴリズム
- [ ] エンドツーエンド強化学習によるエージェント能力
- [ ] より大規模なMOEモデルの安定した強化学習トレーニング
📄 ライセンス
このプロジェクトは、Apache 2.0ライセンスの下で公開されています。
謝辞
主な貢献者は、蟻リサーチのRLラボと清華大学の学際情報科学研究所のメンバーです。
また、蟻リサーチのデータインテリジェンスラボからのデータサポートと、蟻グループのスーパーコンピューティングテクノロジー (SCT) チームからの大規模クラスタの運用管理分野での支援に感謝します。
コミュニティの先駆的な研究、特にOpenPsi Inc.のReaLHFプロジェクトや、DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPOなどの他のプロジェクトにも感謝します。
引用
@inproceedings{mei2025real,
author = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi},
title = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation},
booktitle = {Proceedings of the Eighth Conference on Machine Learning and Systems,
MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025},
publisher = {mlsys.org},
year = {2025},
}
@misc{fu2025areal,
title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning},
author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu},
year={2025},
eprint={2505.24298},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.24298},
}