🚀 奈莫特朗研究推理模型Qwen-1.5B
奈莫特朗研究推理模型Qwen-1.5B是一款領先的15億參數開源權重模型,專為複雜推理任務設計,在數學、編碼、科學及邏輯謎題等領域表現卓越。

🚀 快速開始
奈莫特朗研究推理模型Qwen-1.5B是全球領先的用於複雜推理任務的15億參數開源權重模型,可處理如數學問題、編碼挑戰、科學問題和邏輯謎題等任務。它採用ProRL算法在多樣化且全面的數據集上進行訓練。該模型取得了令人矚目的成果,在包括數學、編碼和GPQA等廣泛任務中,大幅超越了Deepseek的15億參數模型。
請注意,此模型僅用於研究和開發。
✨ 主要特性
ProRL:延長強化學習
ProRL旨在實現更長的強化學習訓練週期,以便更深入地探索推理策略。它支持超過2000個訓練步驟,並能在各種任務中擴展訓練數據,從傳統的數學和編碼任務到STEM問題、邏輯謎題和指令遵循等。我們假設這些對於模型的泛化能力至關重要。
基於組相對策略優化(GRPO),ProRL引入了三項關鍵技術:
- 緩解熵坍塌
- 解耦裁剪和動態採樣策略優化(DAPO)
- KL正則化和參考策略重置
通過使用ProRL,我們開發出了全球最佳的15億參數推理模型,該模型顯著超越了其基礎模型DeepSeek - R1 - 1.5B,並且在各種基準測試中達到甚至超過了DeepSeek - R1 - 7B的性能。值得注意的是,與DeepSeek - R1 - 1.5B相比,我們在數學基準測試中平均pass@1提高了14.7%,在編碼任務中提高了13.9%,在邏輯謎題中提高了54.8%,在STEM推理中提高了25.1%,在指令遵循任務中提高了18.1%。
📦 安裝指南
文檔未提供安裝步驟,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
訓練數據集
數據集 |
鏈接 |
DeepScaleR預覽數據集 |
鏈接 |
Eurus - 2強化學習數據 |
鏈接 |
推理健身房 |
鏈接 |
IFEval |
鏈接 |
SCP - 116K |
鏈接 |
評估結果
數學領域基準測試性能(pass@1)對比
模型 |
AIME24 |
AIME25 |
AMC |
數學 |
Minerva |
奧林匹克競賽 |
平均 |
DeepSeek - R1 - Distill - Qwen - 1.5B |
28.54 |
22.71 |
62.58 |
82.90 |
26.38 |
43.58 |
44.45 |
DeepScaleR - 1.5B |
40.21 |
31.46 |
73.04 |
89.36 |
41.57 |
51.63 |
54.54 |
DeepSeek - R1 - Distill - Qwen - 7B |
53.54 |
40.83 |
82.83 |
93.68 |
50.60 |
57.66 |
63.19 |
奈莫特朗研究推理模型Qwen - 1.5B |
48.13 |
33.33 |
79.29 |
91.89 |
47.98 |
60.22 |
60.14 |
代碼基準測試性能(pass@1)對比
我們對代碼競賽(cc)、Codeforces(cf)、HumanEvalPlus(human)和LiveCodeBench(LCB)等基準測試名稱進行了縮寫。
模型 |
apps |
cc |
cf |
taco |
human |
LCB |
平均 |
DeepSeek - R1 - Distill - Qwen - 1.5B |
20.95 |
16.79 |
14.13 |
8.03 |
61.77 |
16.80 |
23.08 |
DeepCoder - 1.5B |
30.37 |
23.76 |
21.70 |
13.76 |
73.40 |
22.76 |
30.96 |
DeepSeek - R1 - Distill - Qwen - 7B |
42.08 |
32.76 |
33.08 |
19.08 |
83.32 |
38.04 |
41.39 |
奈莫特朗研究推理模型Qwen - 1.5B |
41.99 |
31.80 |
34.50 |
20.81 |
72.05 |
23.81 |
37.49 |
STEM推理、指令遵循和邏輯謎題任務性能對比
我們還展示了在分佈外(OOD)任務上的結果:acre、boxnet和生命遊戲停機問題(game)。
模型 |
GPQA |
IFEval |
推理 |
acre |
boxnet |
game |
DeepSeek - R1 - Distill - Qwen - 1.5B |
15.86 |
44.05 |
4.24 |
5.99 |
0.00 |
3.49 |
DeepSeek - R1 - Distill - Qwen - 7B |
35.44 |
58.01 |
28.55 |
20.21 |
1.71 |
12.94 |
奈莫特朗研究推理模型Qwen - 1.5B |
41.78 |
66.02 |
59.06 |
58.57 |
7.91 |
52.29 |
🔧 技術細節
ProRL算法基於組相對策略優化(GRPO),引入了緩解熵坍塌、解耦裁剪和動態採樣策略優化(DAPO)、KL正則化和參考策略重置三項關鍵技術,以實現更長的強化學習訓練週期,深入探索推理策略,支持超過2000個訓練步驟,並在多樣化任務中擴展訓練數據,從而提升模型的推理能力和泛化能力。
📄 許可證
本模型使用CC - BY - NC - 4.0許可證。
倫理考量
英偉達認為可信AI是一項共同責任,我們已經制定了相關政策和實踐,以支持各種AI應用的開發。當開發者按照我們的服務條款下載或使用此模型時,應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決可能出現的產品濫用問題。
請在此報告安全漏洞或英偉達AI相關問題。
引用
如果您認為我們的數據集有幫助,請引用以下論文:
@article{liu2025prorl,
author = {Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong},
title={ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models},
journal = {arXiv preprint},
year = {2025},
archivePrefix = {arXiv},
primaryClass = {cs.CL},
url={https://arxiv.org/abs/2505.24864},
}