OpenRS-GRPO开源语言模型 - 免费提升1.5B参数模型数学推理能力！

首页

Openrs GRPO

由 knoveleng 开发

Open RS是一个基于强化学习优化的小规模语言模型项目，专注于提升1.5B参数模型的数学推理能力，在资源受限条件下实现高效训练。

大型语言模型

Safetensors

开源协议:MIT #小模型强化学习 #低成本数学推理 #AMC竞赛优化

下载量 30

发布时间 : 3/18/2025

模型简介

该项目探索通过强化学习(RL)提升小规模语言模型的推理能力，采用分组相对策略优化(GRPO)算法，使用精选数学推理数据集进行训练。

模型特点

高效强化学习训练

仅需7,000个样本和42美元成本，在24小时内完成训练

显著推理能力提升

AMC23准确率从63%提升至80%，AIME24达到46.7%超越基线模型

资源友好型优化

仅需4块NVIDIA A40 GPU(每块48GB显存)即可完成训练

模型能力

数学问题求解

逻辑推理

文本生成

使用案例

教育

数学竞赛题解答

解决AMC/AIME等数学竞赛题目

AMC23准确率80%，AIME24准确率46.7%

研究

小模型优化研究

探索资源受限条件下的模型优化方法

验证RL方法对小模型的有效性

🚀 开放推理增强模型（Open RS）

本项目聚焦于小型大语言模型（LLMs）在资源受限条件下，借助强化学习（RL）提升推理能力的探索。通过特定算法和精心挑选的数据集，实现了高效且经济的模型训练，显著提升了推理性能。

🚀 快速开始

本仓库为 Open RS 项目提供模型支持，该项目与论文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t 相关。项目旨在探索在资源受限的条件下，利用强化学习（RL）增强小型大语言模型（LLMs）的推理能力。

我们聚焦于一个 15 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B，该模型在 4 张 NVIDIA A40 GPU（每张显存 48 GB）上进行了 24 小时的训练。通过调整分组相对策略优化（GRPO）算法，并利用精心策划的紧凑数学推理数据集，我们进行了三项实验来评估性能和行为。主要发现包括：

推理能力显著提升，例如 AMC23 的准确率从 63% 提高到 80%，AIME24 达到 46.7%，优于 o1-preview。
仅使用 7000 个样本进行高效训练，成本仅为 42 美元，而基线模型的成本则高达数千美元。
存在一些挑战，如优化不稳定以及长时间训练时的长度限制。

这些结果表明，基于强化学习的微调是小型大语言模型的一种经济有效的方法，使推理能力在资源有限的环境中也能实现。我们开源了代码、模型和数据集，以支持进一步的研究。

更多详细信息，请参考我们的 GitHub。

✨ 主要特性

性能亮点

Open-RS1：平均得分 53.0%
Open-RS2：平均得分 55.7%，AMC23 达到 80.0%
Open-RS3：平均得分 56.3%，AIME24 达到 46.7%（优于 o1-preview 的 44.6%）
在 MATH - 500 得分上具有竞争力；Minerva 落后于 70 亿参数模型。

性能指标

成本效益

我们的方法使用 7000 个样本（总共 42000 个输出），在 4 张 A40 GPU 上 24 小时的成本约为 42 美元，相比之下：

70 亿参数模型：Qwen2.5 - 7B - SimpleRL（1633 美元），Eurus - 2 - 7B - PRIME（1088 美元）
15 亿参数模型：DeepScaleR - 1.5B - Preview（3629 美元），Still - 3 - 1.5B - Preview（2268 美元）

70 亿参数模型成本
15 亿参数模型成本

📄 许可证

本项目采用 MIT 许可证。

📚 详细文档

模型信息

属性	详情
模型类型	文本生成
训练数据集	knoveleng/open - rs、knoveleng/open - s1、knoveleng/open - deepscaler
基础模型	deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B

引用信息

如果本项目对你的工作有帮助，请按以下格式引用：

@misc{dang2025reinforcementlearningreasoningsmall,
      title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't}, 
      author={Quy-Anh Dang and Chris Ngo},
      year={2025},
      eprint={2503.16219},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2503.16219}, 
}