🚀 开放推理系统(Open RS)项目模型
本项目聚焦于小型大语言模型(LLM)在资源受限条件下,利用强化学习(RL)提升推理能力。通过对 15 亿参数模型 DeepSeek-R1-Distill-Qwen-1.5B
的研究,展示了基于 RL 的微调方法在小型 LLM 中的有效性和成本效益。
属性 |
详情 |
基础模型 |
deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B |
训练数据集 |
knoveleng/open-rs、knoveleng/open-s1、knoveleng/open-deepscaler |
许可证 |
MIT |
任务类型 |
文本生成 |
推理功能 |
支持 |
依赖库 |
transformers |
🚀 快速开始
本仓库为 开放推理系统(Open RS) 项目提供模型支持,相关研究发表于论文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t。项目旨在探索在资源受限条件下,利用强化学习(RL)提升小型大语言模型(LLM)的推理能力。
我们聚焦于一个 15 亿参数的模型 DeepSeek-R1-Distill-Qwen-1.5B
,该模型在 4 块 NVIDIA A40 GPU(每块 48GB VRAM)上训练了 24 小时。通过采用分组相对策略优化(GRPO)算法,并利用精心策划的紧凑数学推理数据集,我们进行了三项实验以评估模型的性能和行为。主要发现包括:
- 推理能力显著提升,例如 AMC23 准确率从 63% 提升至 80%,AIME24 达到 46.7%,优于
o1-preview
。
- 训练效率高,仅使用 7000 个样本,成本为 42 美元,而基线模型的成本则高达数千美元。
- 存在一些挑战,如优化不稳定和长时间训练的长度限制。
这些结果表明,基于 RL 的微调是小型 LLM 的一种经济有效的方法,使推理能力在资源有限的环境中也能实现。我们开源了代码、模型和数据集,以支持进一步的研究。
更多详细信息,请参考我们的 GitHub 仓库。
✨ 主要特性
性能亮点
- Open-RS1:平均得分 53.0%
- Open-RS2:平均得分 55.7%,AMC23 达到 80.0%
- Open-RS3:平均得分 56.3%,AIME24 达到 46.7%(优于
o1-preview
的 44.6%)
- 在 MATH-500 得分上具有竞争力;Minerva 落后于 70 亿参数模型。

成本效益
我们的方法使用 7000 个样本(总共 42000 个输出),在 4 块 A40 GPU 上训练 24 小时,成本约为 42 美元,相比之下:
- 70 亿参数模型:
Qwen2.5-7B-SimpleRL
(1633 美元),Eurus-2-7B-PRIME
(1088 美元)
- 15 亿参数模型:
DeepScaleR-1.5B-Preview
(3629 美元),Still-3-1.5B-Preview
(2268 美元)


📄 许可证
本项目采用 MIT 许可证。
📚 引用
如果本项目对您的工作有帮助,请按以下格式引用:
@misc{dang2025reinforcementlearningreasoningsmall,
title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't},
author={Quy-Anh Dang and Chris Ngo},
year={2025},
eprint={2503.16219},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.16219},
}