AReaL-boba-2-8Bオープンソース推論モデル - 螞蟻科技が構築した高速トレーニングかつ最先端性能のモデル

ホーム

Areal Boba 2 8B

inclusionAIによって開発

AReaLはアリババグループによって開発された非同期強化学習訓練システムで、大型推論モデル向けに設計され、高速訓練と最先端の性能をサポートします。

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #非同期強化学習 #大規模言語モデル推論 #コード生成最適化

ダウンロード数 1,294

リリース時間 : 6/3/2025

モデル概要

AReaLは完全非同期強化学習訓練システムで、ユーザーが簡単にAIエージェントを構築できるように支援し、特に大型言語モデルの数学とコーディングにおける推論能力の向上に長けています。

モデル特徴

非同期強化学習

アルゴリズムとシステムの協調設計により、完全非同期強化学習をサポートし、最速の訓練速度を実現します。

オープン再現可能

すべてのコード、データセット、訓練レシピを公開し、結果の再現性を保証します。

高拡張性

異なる計算リソース設定に適応し、単一ノードから1K個のGPUまでシームレスに拡張できます。

最先端の性能

数学とコーディングタスクで優れた性能を発揮し、多輪エージェント強化学習をサポートします。

モデル能力

コード生成

数学推論

多輪対話

強化学習訓練

使用事例

プログラミング支援

コード自動補完

開発者がコード断片を迅速に生成できるよう支援し、プログラミング効率を向上させます。

LiveCodeBench v5で63.0点を達成

アルゴリズムコンテストの問題解決

Codeforcesなどのプラットフォームのプログラミング問題を解きます。

Codeforcesで1962点（97.5%）を達成

数学推論

数学問題の解決

複雑な数学問題や証明を解きます。

🚀 「AReaL」: 大規模言語モデル向けの蟻推論強化学習

AReaL（蟻推論強化学習）は、蟻リサーチのRLラボで開発された、大規模推論モデル用のオープンソースの完全非同期強化学習トレーニングシステムです。オープンソースプロジェクトのRealHFをベースに構築され、モデル自体とともに、結果を再現するために必要なトレーニングの詳細、データ、インフラを提供することで、完全にオープンソースにコミットしています。AReaLは、誰もが簡単かつ安価に独自のAIエージェントを構築できるように支援することを目指しています。私たちのチームは、美味しく、カスタマイズ可能で、手頃な価格のミルクティーが好きです。皆さんが現実のミルクティーを楽しむように、このプロジェクトを楽しんでいただければ幸いです。

コード: https://github.com/inclusionAI/AReaL

🚀 クイックスタート

ローカルでのQwen3 1.7Bのトレーニング

bash examples/run_async_ppo.sh

評価

cd evaluation
# モデルの評価
python eval_and_aggregate.py \
  --model_path ${MODEL_PATH} \
  --output_path ${OUTPUT_PATH} \
  --data_names aime24,aime25 \
  --max_gen_tokens 32768 \
  --data_names codeforces,lcb_v5 \
  --prompt_type qwen3-think-pure \
  --temperature 1.0

✨ 主な機能

AReaLの特長

[新機能] 非同期強化学習: アルゴリズムとシステムの共同設計により、AReaLは最速のトレーニングを実現する完全非同期強化学習をサポートします！また、多ターンエージェント型強化学習の実験的サポートも提供しています。
オープンかつ再現可能: 大規模言語モデルの強化学習トレーニングに必要なすべてのコード、データセット、トレーニングレシピを継続的に公開しています。
スケーラビリティ: AReaLは、単一ノードから1K GPUまでのさまざまな計算リソース設定にシームレスに適応できます。
最先端の性能: AReaLは、数学とコーディングにおいて最先端の推論能力を持つモデルを生成できます。また、エージェント型タスクにも積極的に取り組んでいます。

📦 インストール

インストールに関する詳細な手順は、こちらのドキュメントを参照してください。

💻 使用例

基本的な使用法

上記の「クイックスタート」セクションに記載されているコードを参照してください。

高度な使用法

非同期トレーニングに関する以下の主要機能についてのチュートリアルとコード解説を強調します。

📚 ドキュメント

リリースのハイライト

AReaL-boba¬≤ (A-ReaL-double-boba) リリースでは、最も重要な3つの機能を強調しています。

システムと強化学習アルゴリズムの共同設計による完全非同期強化学習トレーニングパイプライン。パフォーマンスを低下させることなく、2.77倍以上の高速化を実現します。ベンチマークスクリプトと説明はこちらを参照してください。
SOTAのコード生成モデル、つまりLCB-v5で69.1点を獲得した14Bモデル。再現するには、設定ファイルと説明を参照してください。
多ターンエージェント型強化学習トレーニングの実験的サポート。完全な例はこちらを参照してください。

システムの完全な設計とより詳細なトレーニング情報については、v0.3のブログと研究論文を参照してください。

非同期強化学習トレーニングの概要

同期型強化学習トレーニングプロセスでは、生成ステップは、大規模言語モデルの出力バッチ内で最長のシーケンスが完了するまで待機する必要があります。大規模推論モデルの出力長が異なるため、同期型強化学習システムは大量のGPUアイドル時間に苦しみ、トレーニングの非効率化につながります。最近のいくつかの研究（DeepCoder、Intellect）では、単一のトレーニングステップと単一の生成ステップを重ねることでトレーニングを高速化することが提案されています。しかし、最大のボトルネックは変わらず、バッチ内のサンプルは依然として同じモデルバージョンからのものであり、待機時間とGPUアイドル時間が発生します。

AReaLは、生成とトレーニングを完全に分離する完全非同期強化学習トレーニングフレームワークを採用しています。AReaLでは、大規模言語モデルの生成はストリーミング方式で実行され、各ロールアウトワーカーは待機することなく継続的に出力を生成します。一方、トレーナーワーカーは、トレーニングバッチを受け取ると並列にモデルの更新を行います。

AReaL-boba¬≤によるSOTAコード生成モデル

Qwen3をベースモデルとして使用しています。非同期強化学習トレーニングの後、LiveCodeBench、Codeforces、CodeContestsのベンチマークでSOTAの結果を達成しています。

モデル (8B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3-8B	58.8	1879/96.7%	31.4
DeepSeek-R1-0528-Qwen3-8B	58.4	1945/97.3%	31.0
AReaL-boba¬≤-8B-Open	62.0	1933/97.2%	41.4
AReaL-boba¬≤-8B	63.0	1962/97.5%	40.8

モデル (14B)	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3-14B	65.4	1978/97.7%	38.3
DeepCoder-14B-Preview	60.6	1936/95.3%	40.1
AReaL-boba¬≤-14B-Open	67.3	1990/97.8%	46.2
AReaL-boba¬≤-14B	69.1	2044/98.2%	46.1

より大きなモデル	LiveCodeBench v5 (2024.10 - 2025.2)	Codeforces	CodeContests
Qwen3-235B	70.7	2056	-
DeepSeek-R1	64.3	2029	-
OpenAI-o3-mini (Medium)	66.3	2036	-

表1: コーディングタスクのパフォーマンス比較。AReaL-boba¬≤-8B/14B-Openはオープンソースデータでのトレーニング結果を示します。AReaL-boba¬≤-8B/14Bモデルは、追加の少量の内部データでトレーニングされ、LiveCodeBench、Codeforces、CodeContestsでSOTAのパフォーマンスを達成しています。

多ターンエージェントの強化学習トレーニング

AReaL-boba¬≤を使用すると、データセット、ロールアウト動作、トレーニングアルゴリズムを独立してカスタマイズでき、大規模なシステムレベルのコードを変更する必要はありません。

特に、多ターン数学エージェントを開発して強化学習トレーニングを行う簡単な例を示しています。独自のエージェント型強化学習プロジェクトを実装したい場合は、以下の学習曲線を参照し、ステップバイステップガイドを参照してください。

🔧 技術詳細

リソース

クイックスタート

ベンチマークと再現

boba¬≤コードモデルの再現
- モデルの重み: 8Bコード、14Bコード、8Bコード - オープン、14Bコード - オープン
- 評価ガイド
- トレーニング設定ファイルと説明
ベンチマークトレーニングスループットのスクリプト

カスタマイズガイド

システムコード解説

将来の計画

AReaLは現在積極的に開発中です。毎週マイナーリリース、毎月メジャーリリースを予定しています。コミュニティの関与と貢献を大歓迎しています。また、インターンシップと正社員を募集しており、米国と中国の両方で求人があります。

既に決まっている研究開発計画は以下の通りです。

システム開発

[x] SGLangのサポート
[x] コーディング問題を用いた強化学習トレーニング
[x] 非同期生成と強化学習トレーニング
[ ] 分散トレーニングの最適化: MOEのエキスパートパラレルとゼロバブルパイプライニング
[ ] ビジョン言語モデル (VLM) の強化学習
[x] 多ターンエージェント型強化学習
[ ] 関数呼び出しとツールの使用

アルゴリズム開発

[x] 1.5Bと7Bモデルの強化学習トレーニングレシピ
[x] 32Bモデルの完全な強化学習トレーニングレシピ
[ ] サンプル効率の高いマルチタスク強化学習アルゴリズム
[ ] エンドツーエンド強化学習によるエージェント能力
[ ] より大規模なMOEモデルの安定した強化学習トレーニング

📄 ライセンス

このプロジェクトは、Apache 2.0ライセンスの下で公開されています。

謝辞

主な貢献者は、蟻リサーチのRLラボと清華大学の学際情報科学研究所のメンバーです。

また、蟻リサーチのデータインテリジェンスラボからのデータサポートと、蟻グループのスーパーコンピューティングテクノロジー (SCT) チームからの大規模クラスタの運用管理分野での支援に感謝します。

コミュニティの先駆的な研究、特にOpenPsi Inc.のReaLHFプロジェクトや、DeepScaleR、Open-Reasoner-Zero、OpenRLHF、VeRL、SGLang、QwQ、Light-R1、DAPOなどの他のプロジェクトにも感謝します。

引用

@inproceedings{mei2025real,
  author       = {Mei, Zhiyu and Fu, Wei and Li, Kaiwei and Wang, Guangju and Zhang, Huanchen and Wu, Yi},
  title        = {ReaL: Efficient RLHF Training of Large Language Models with Parameter Reallocation},
  booktitle    = {Proceedings of the Eighth Conference on Machine Learning and Systems,
                  MLSys 2025, Santa Clara, CA, USA, May 12-15, 2025},
  publisher    = {mlsys.org},
  year         = {2025},
}

@misc{fu2025areal,
      title={AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning}, 
      author={Wei Fu and Jiaxuan Gao and Xujie Shen and Chen Zhu and Zhiyu Mei and Chuyi He and Shusheng Xu and Guo Wei and Jun Mei and Jiashu Wang and Tongkai Yang and Binhang Yuan and Yi Wu},
      year={2025},
      eprint={2505.24298},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.24298}, 
}