OpenRS - GRPOオープンソース言語モデル－ 15億パラメータモデルの数学的推論能力を無料で向上！

ホーム

Openrs GRPO

knovelengによって開発

Open RSは強化学習で最適化された小規模言語モデルプロジェクトで、1.5Bパラメータモデルの数学推論能力向上に焦点を当て、リソース制約条件下で効率的なトレーニングを実現します。

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #小規模モデルの強化学習 #低コスト数学推論 #AMC競技最適化

ダウンロード数 30

リリース時間 : 3/18/2025

モデル概要

このプロジェクトは強化学習(RL)を用いて小規模言語モデルの推論能力を向上させる方法を探求し、グループ相対ポリシー最適化(GRPO)アルゴリズムを採用し、精選された数学推論データセットでトレーニングを行います。

モデル特徴

効率的な強化学習トレーニング

わずか7,000サンプルと42ドルのコストで24時間以内にトレーニングを完了

顕著な推論能力向上

AMC23正解率が63%から80%に向上、AIME24では46.7%を達成しベースラインモデルを超越

リソースフレンドリーな最適化

NVIDIA A40 GPU4枚(各48GB VRAM)のみでトレーニング可能

モデル能力

数学問題解決

論理的推論

テキスト生成

使用事例

教育

数学競技問題解答

AMC/AIMEなどの数学競技問題を解決

AMC23正解率80%、AIME24正解率46.7%

研究

小規模モデル最適化研究

リソース制約条件下でのモデル最適化手法の探求

小規模モデルに対するRL手法の有効性を検証

🚀 オープンRSモデル

このリポジトリは、論文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t とともに、Open RS プロジェクトのモデルをホストしています。このプロジェクトでは、リソース制約のある条件下で強化学習（RL）を用いて、小型の大規模言語モデル（LLM）の推論能力を向上させることを探っています。

🚀 クイックスタート

このリポジトリは、Open RS プロジェクトのモデルを提供しています。このプロジェクトは、リソース制約下で強化学習を用いて小型の大規模言語モデルの推論能力を向上させることを目指しています。詳細については、github を参照してください。

✨ 主な機能

15億パラメータのモデル DeepSeek-R1-Distill-Qwen-1.5B を、4台のNVIDIA A40 GPU（各48GB VRAM）で24時間以内に学習。
Group Relative Policy Optimization (GRPO) アルゴリズムを適用し、精選されたコンパクトな数学的推論データセットを利用。
推論能力の大幅な向上（例: AMC23の精度が63%から80%に、AIME24が46.7%に達し、o1-preview を上回る）。
7,000サンプルで$42のコストで効率的な学習（ベースラインモデルでは数千ドルかかる）。

📦 データセットとベースモデル

項目	詳細
データセット	knoveleng/open-rs、knoveleng/open-s1、knoveleng/open-deepscaler
ベースモデル	deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

📚 ドキュメント

評価

性能のハイライト

Open-RS1：平均スコア53.0%
Open-RS2：平均スコア55.7%、AMC23で80.0%
Open-RS3：平均スコア56.3%、AIME24で46.7%（o1-preview の44.6%を上回る）
競争力のあるMATH-500スコア；Minervaは7Bモデルよりも劣る。

性能指標

コスト効率

当社のアプローチでは、7,000サンプル（合計42,000出力）を使用し、4台のA40 GPUで24時間で約$42のコストです。これは以下のモデルと比較しています。

7Bモデル：Qwen2.5-7B-SimpleRL（$1,633）、Eurus-2-7B-PRIME（$1,088）
1.5Bモデル：DeepScaleR-1.5B-Preview（$3,629）、Still-3-1.5B-Preview（$2,268）

7Bモデルのコスト
1.5Bモデルのコスト

引用

このプロジェクトがあなたの研究に役立った場合は、以下のように引用してください。

@misc{dang2025reinforcementlearningreasoningsmall,
      title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't}, 
      author={Quy-Anh Dang and Chris Ngo},
      year={2025},
      eprint={2503.16219},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2503.16219}, 
}