🚀 開放推理增強模型(Open RS)
本項目聚焦於小型大語言模型(LLMs)在資源受限條件下,藉助強化學習(RL)提升推理能力的探索。通過特定算法和精心挑選的數據集,實現了高效且經濟的模型訓練,顯著提升了推理性能。
🚀 快速開始
本倉庫為 Open RS 項目提供模型支持,該項目與論文 Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn’t 相關。項目旨在探索在資源受限的條件下,利用強化學習(RL)增強小型大語言模型(LLMs)的推理能力。
我們聚焦於一個 15 億參數的模型 DeepSeek-R1-Distill-Qwen-1.5B
,該模型在 4 張 NVIDIA A40 GPU(每張顯存 48 GB)上進行了 24 小時的訓練。通過調整分組相對策略優化(GRPO)算法,並利用精心策劃的緊湊數學推理數據集,我們進行了三項實驗來評估性能和行為。主要發現包括:
- 推理能力顯著提升,例如 AMC23 的準確率從 63% 提高到 80%,AIME24 達到 46.7%,優於
o1-preview
。
- 僅使用 7000 個樣本進行高效訓練,成本僅為 42 美元,而基線模型的成本則高達數千美元。
- 存在一些挑戰,如優化不穩定以及長時間訓練時的長度限制。
這些結果表明,基於強化學習的微調是小型大語言模型的一種經濟有效的方法,使推理能力在資源有限的環境中也能實現。我們開源了代碼、模型和數據集,以支持進一步的研究。
更多詳細信息,請參考我們的 GitHub。
✨ 主要特性
性能亮點
- Open-RS1:平均得分 53.0%
- Open-RS2:平均得分 55.7%,AMC23 達到 80.0%
- Open-RS3:平均得分 56.3%,AIME24 達到 46.7%(優於
o1-preview
的 44.6%)
- 在 MATH - 500 得分上具有競爭力;Minerva 落後於 70 億參數模型。

成本效益
我們的方法使用 7000 個樣本(總共 42000 個輸出),在 4 張 A40 GPU 上 24 小時的成本約為 42 美元,相比之下:
- 70 億參數模型:
Qwen2.5 - 7B - SimpleRL
(1633 美元),Eurus - 2 - 7B - PRIME
(1088 美元)
- 15 億參數模型:
DeepScaleR - 1.5B - Preview
(3629 美元),Still - 3 - 1.5B - Preview
(2268 美元)


📄 許可證
本項目採用 MIT 許可證。
📚 詳細文檔
模型信息
屬性 |
詳情 |
模型類型 |
文本生成 |
訓練數據集 |
knoveleng/open - rs、knoveleng/open - s1、knoveleng/open - deepscaler |
基礎模型 |
deepseek - ai/DeepSeek - R1 - Distill - Qwen - 1.5B |
引用信息
如果本項目對你的工作有幫助,請按以下格式引用:
@misc{dang2025reinforcementlearningreasoningsmall,
title={Reinforcement Learning for Reasoning in Small LLMs: What Works and What Doesn't},
author={Quy-Anh Dang and Chris Ngo},
year={2025},
eprint={2503.16219},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2503.16219},
}