🚀 奈莫特朗研究推理模型Qwen-1.5B
奈莫特朗研究推理模型Qwen-1.5B是一款领先的15亿参数开源权重模型,专为复杂推理任务设计,在数学、编码、科学及逻辑谜题等领域表现卓越。

🚀 快速开始
奈莫特朗研究推理模型Qwen-1.5B是全球领先的用于复杂推理任务的15亿参数开源权重模型,可处理如数学问题、编码挑战、科学问题和逻辑谜题等任务。它采用ProRL算法在多样化且全面的数据集上进行训练。该模型取得了令人瞩目的成果,在包括数学、编码和GPQA等广泛任务中,大幅超越了Deepseek的15亿参数模型。
请注意,此模型仅用于研究和开发。
✨ 主要特性
ProRL:延长强化学习
ProRL旨在实现更长的强化学习训练周期,以便更深入地探索推理策略。它支持超过2000个训练步骤,并能在各种任务中扩展训练数据,从传统的数学和编码任务到STEM问题、逻辑谜题和指令遵循等。我们假设这些对于模型的泛化能力至关重要。
基于组相对策略优化(GRPO),ProRL引入了三项关键技术:
- 缓解熵坍塌
- 解耦裁剪和动态采样策略优化(DAPO)
- KL正则化和参考策略重置
通过使用ProRL,我们开发出了全球最佳的15亿参数推理模型,该模型显著超越了其基础模型DeepSeek - R1 - 1.5B,并且在各种基准测试中达到甚至超过了DeepSeek - R1 - 7B的性能。值得注意的是,与DeepSeek - R1 - 1.5B相比,我们在数学基准测试中平均pass@1提高了14.7%,在编码任务中提高了13.9%,在逻辑谜题中提高了54.8%,在STEM推理中提高了25.1%,在指令遵循任务中提高了18.1%。
📦 安装指南
文档未提供安装步骤,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
训练数据集
数据集 |
链接 |
DeepScaleR预览数据集 |
链接 |
Eurus - 2强化学习数据 |
链接 |
推理健身房 |
链接 |
IFEval |
链接 |
SCP - 116K |
链接 |
评估结果
数学领域基准测试性能(pass@1)对比
模型 |
AIME24 |
AIME25 |
AMC |
数学 |
Minerva |
奥林匹克竞赛 |
平均 |
DeepSeek - R1 - Distill - Qwen - 1.5B |
28.54 |
22.71 |
62.58 |
82.90 |
26.38 |
43.58 |
44.45 |
DeepScaleR - 1.5B |
40.21 |
31.46 |
73.04 |
89.36 |
41.57 |
51.63 |
54.54 |
DeepSeek - R1 - Distill - Qwen - 7B |
53.54 |
40.83 |
82.83 |
93.68 |
50.60 |
57.66 |
63.19 |
奈莫特朗研究推理模型Qwen - 1.5B |
48.13 |
33.33 |
79.29 |
91.89 |
47.98 |
60.22 |
60.14 |
代码基准测试性能(pass@1)对比
我们对代码竞赛(cc)、Codeforces(cf)、HumanEvalPlus(human)和LiveCodeBench(LCB)等基准测试名称进行了缩写。
模型 |
apps |
cc |
cf |
taco |
human |
LCB |
平均 |
DeepSeek - R1 - Distill - Qwen - 1.5B |
20.95 |
16.79 |
14.13 |
8.03 |
61.77 |
16.80 |
23.08 |
DeepCoder - 1.5B |
30.37 |
23.76 |
21.70 |
13.76 |
73.40 |
22.76 |
30.96 |
DeepSeek - R1 - Distill - Qwen - 7B |
42.08 |
32.76 |
33.08 |
19.08 |
83.32 |
38.04 |
41.39 |
奈莫特朗研究推理模型Qwen - 1.5B |
41.99 |
31.80 |
34.50 |
20.81 |
72.05 |
23.81 |
37.49 |
STEM推理、指令遵循和逻辑谜题任务性能对比
我们还展示了在分布外(OOD)任务上的结果:acre、boxnet和生命游戏停机问题(game)。
模型 |
GPQA |
IFEval |
推理 |
acre |
boxnet |
game |
DeepSeek - R1 - Distill - Qwen - 1.5B |
15.86 |
44.05 |
4.24 |
5.99 |
0.00 |
3.49 |
DeepSeek - R1 - Distill - Qwen - 7B |
35.44 |
58.01 |
28.55 |
20.21 |
1.71 |
12.94 |
奈莫特朗研究推理模型Qwen - 1.5B |
41.78 |
66.02 |
59.06 |
58.57 |
7.91 |
52.29 |
🔧 技术细节
ProRL算法基于组相对策略优化(GRPO),引入了缓解熵坍塌、解耦裁剪和动态采样策略优化(DAPO)、KL正则化和参考策略重置三项关键技术,以实现更长的强化学习训练周期,深入探索推理策略,支持超过2000个训练步骤,并在多样化任务中扩展训练数据,从而提升模型的推理能力和泛化能力。
📄 许可证
本模型使用CC - BY - NC - 4.0许可证。
伦理考量
英伟达认为可信AI是一项共同责任,我们已经制定了相关政策和实践,以支持各种AI应用的开发。当开发者按照我们的服务条款下载或使用此模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决可能出现的产品滥用问题。
请在此报告安全漏洞或英伟达AI相关问题。
引用
如果您认为我们的数据集有帮助,请引用以下论文:
@article{liu2025prorl,
author = {Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong},
title={ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models},
journal = {arXiv preprint},
year = {2025},
archivePrefix = {arXiv},
primaryClass = {cs.CL},
url={https://arxiv.org/abs/2505.24864},
}