🚀 开放推理增强模型(Open RS)
本项目聚焦于小型大语言模型(LLMs)在资源受限条件下,借助强化学习(RL)提升推理能力的探索。通过特定算法和精心挑选的数据集,实现了高效且经济的模型训练,显著提升了推理性能。
🚀 快速开始
本仓库为 Open RS 项目提供模型支持,该项目与论文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t 相关。项目旨在探索在资源受限的条件下,利用强化学习(RL)增强小型大语言模型(LLMs)的推理能力。
我们聚焦于一个 15 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B
,该模型在 4 张 NVIDIA A40 GPU(每张显存 48 GB)上进行了 24 小时的训练。通过调整分组相对策略优化(GRPO)算法,并利用精心策划的紧凑数学推理数据集,我们进行了三项实验来评估性能和行为。主要发现包括:
- 推理能力显著提升,例如 AMC23 的准确率从 63% 提高到 80%,AIME24 达到 46.7%,优于
o1-preview
。
- 仅使用 7000 个样本进行高效训练,成本仅为 42 美元,而基线模型的成本则高达数千美元。
- 存在一些挑战,如优化不稳定以及长时间训练时的长度限制。
这些结果表明,基于强化学习的微调是小型大语言模型的一种经济有效的方法,使推理能力在资源有限的环境中也能实现。我们开源了代码、模型和数据集,以支持进一步的研究。
更多详细信息,请参考我们的 GitHub。
✨ 主要特性
性能亮点
- Open-RS1:平均得分 53.0%
- Open-RS2:平均得分 55.7%,AMC23 达到 80.0%
- Open-RS3:平均得分 56.3%,AIME24 达到 46.7%(优于
o1-preview
的 44.6%)
- 在 MATH - 500 得分上具有竞争力;Minerva 落后于 70 亿参数模型。

成本效益
我们的方法使用 7000 个样本(总共 42000 个输出),在 4 张 A40 GPU 上 24 小时的成本约为 42 美元,相比之下:
- 70 亿参数模型:
Qwen2.5 - 7B - SimpleRL
(1633 美元),Eurus - 2 - 7B - PRIME
(1088 美元)
- 15 亿参数模型:
DeepScaleR - 1.5B - Preview
(3629 美元),Still - 3 - 1.5B - Preview
(2268 美元)


📄 许可证
本项目采用 MIT 许可证。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
文本生成 |
训练数据集 |
knoveleng/open - rs、knoveleng/open - s1、knoveleng/open - deepscaler |
基础模型 |
deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B |
引用信息
如果本项目对你的工作有帮助,请按以下格式引用:
@misc{dang2025reinforcementlearningreasoningsmall,
title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't},
author={Quy-Anh Dang and Chris Ngo},
year={2025},
eprint={2503.16219},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.16219},
}