Nemotron-Research-Reasoning-Qwen-1.5B开源模型 - 助力数学、编码等复杂推理任务

首页

Nemotron Research Reasoning Qwen 1.5B

由 nvidia 开发

一款15亿参数的开源权重模型，专为复杂推理任务设计，在数学、编码、科学及逻辑谜题等领域表现卓越。

大型语言模型

Transformers

英语#复杂推理优化 #STEM问题求解 #强化学习增强

下载量 1,236

发布时间 : 5/28/2025

模型简介

奈莫特朗研究推理模型Qwen-1.5B是一款领先的15亿参数开源权重模型，专为复杂推理任务设计，采用ProRL算法在多样化数据集上进行训练，在数学、编码、科学及逻辑谜题等领域表现卓越。

模型特点

ProRL算法

延长强化学习训练周期，支持超过2000个训练步骤，深入探索推理策略。

组相对策略优化（GRPO）

引入缓解熵坍塌、解耦裁剪和动态采样策略优化（DAPO）、KL正则化和参考策略重置三项关键技术。

卓越的推理能力

在数学、编码、STEM推理、逻辑谜题和指令遵循等任务中表现卓越，显著超越同类模型。

模型能力

数学问题求解

编码挑战

科学问题推理

逻辑谜题解答

STEM推理

指令遵循

使用案例

教育

数学竞赛题解答

用于解答AIME、AMC等数学竞赛题目

在AIME24和AIME25中分别达到48.13%和33.33%的pass@1

编程竞赛题解答

用于解答Codeforces等编程竞赛题目

在Codeforces基准测试中达到34.50%的pass@1

研究

STEM问题研究

用于解决复杂的STEM领域问题

在GPQA基准测试中达到41.78%的pass@1

逻辑谜题研究

用于解决复杂的逻辑谜题

在推理基准测试中达到59.06%的pass@1

🚀 奈莫特朗研究推理模型Qwen-1.5B

奈莫特朗研究推理模型Qwen-1.5B是一款领先的15亿参数开源权重模型，专为复杂推理任务设计，在数学、编码、科学及逻辑谜题等领域表现卓越。

DeepSeek-R1-1.5B与奈莫特朗研究推理模型Qwen-1.5B的对比

🚀 快速开始

奈莫特朗研究推理模型Qwen-1.5B是全球领先的用于复杂推理任务的15亿参数开源权重模型，可处理如数学问题、编码挑战、科学问题和逻辑谜题等任务。它采用ProRL算法在多样化且全面的数据集上进行训练。该模型取得了令人瞩目的成果，在包括数学、编码和GPQA等广泛任务中，大幅超越了Deepseek的15亿参数模型。

请注意，此模型仅用于研究和开发。

✨ 主要特性

ProRL：延长强化学习

ProRL旨在实现更长的强化学习训练周期，以便更深入地探索推理策略。它支持超过2000个训练步骤，并能在各种任务中扩展训练数据，从传统的数学和编码任务到STEM问题、逻辑谜题和指令遵循等。我们假设这些对于模型的泛化能力至关重要。

基于组相对策略优化（GRPO），ProRL引入了三项关键技术：

缓解熵坍塌
解耦裁剪和动态采样策略优化（DAPO）
KL正则化和参考策略重置

通过使用ProRL，我们开发出了全球最佳的15亿参数推理模型，该模型显著超越了其基础模型DeepSeek - R1 - 1.5B，并且在各种基准测试中达到甚至超过了DeepSeek - R1 - 7B的性能。值得注意的是，与DeepSeek - R1 - 1.5B相比，我们在数学基准测试中平均pass@1提高了14.7%，在编码任务中提高了13.9%，在逻辑谜题中提高了54.8%，在STEM推理中提高了25.1%，在指令遵循任务中提高了18.1%。

📦 安装指南

文档未提供安装步骤，故跳过此章节。

💻 使用示例

文档未提供代码示例，故跳过此章节。

📚 详细文档

训练数据集

数据集	链接
DeepScaleR预览数据集	链接
Eurus - 2强化学习数据	链接
推理健身房	链接
IFEval	链接
SCP - 116K	链接

评估结果

数学领域基准测试性能（pass@1）对比

模型	AIME24	AIME25	AMC	数学	Minerva	奥林匹克竞赛	平均
DeepSeek - R1 - Distill - Qwen - 1.5B	28.54	22.71	62.58	82.90	26.38	43.58	44.45
DeepScaleR - 1.5B	40.21	31.46	73.04	89.36	41.57	51.63	54.54
DeepSeek - R1 - Distill - Qwen - 7B	53.54	40.83	82.83	93.68	50.60	57.66	63.19
奈莫特朗研究推理模型Qwen - 1.5B	48.13	33.33	79.29	91.89	47.98	60.22	60.14

代码基准测试性能（pass@1）对比

我们对代码竞赛（cc）、Codeforces（cf）、HumanEvalPlus（human）和LiveCodeBench（LCB）等基准测试名称进行了缩写。

模型	apps	cc	cf	taco	human	LCB	平均
DeepSeek - R1 - Distill - Qwen - 1.5B	20.95	16.79	14.13	8.03	61.77	16.80	23.08
DeepCoder - 1.5B	30.37	23.76	21.70	13.76	73.40	22.76	30.96
DeepSeek - R1 - Distill - Qwen - 7B	42.08	32.76	33.08	19.08	83.32	38.04	41.39
奈莫特朗研究推理模型Qwen - 1.5B	41.99	31.80	34.50	20.81	72.05	23.81	37.49

STEM推理、指令遵循和逻辑谜题任务性能对比

我们还展示了在分布外（OOD）任务上的结果：acre、boxnet和生命游戏停机问题（game）。

模型	GPQA	IFEval	推理	acre	boxnet	game
DeepSeek - R1 - Distill - Qwen - 1.5B	15.86	44.05	4.24	5.99	0.00	3.49
DeepSeek - R1 - Distill - Qwen - 7B	35.44	58.01	28.55	20.21	1.71	12.94
奈莫特朗研究推理模型Qwen - 1.5B	41.78	66.02	59.06	58.57	7.91	52.29

🔧 技术细节

ProRL算法基于组相对策略优化（GRPO），引入了缓解熵坍塌、解耦裁剪和动态采样策略优化（DAPO）、KL正则化和参考策略重置三项关键技术，以实现更长的强化学习训练周期，深入探索推理策略，支持超过2000个训练步骤，并在多样化任务中扩展训练数据，从而提升模型的推理能力和泛化能力。

📄 许可证

本模型使用CC - BY - NC - 4.0许可证。

伦理考量

英伟达认为可信AI是一项共同责任，我们已经制定了相关政策和实践，以支持各种AI应用的开发。当开发者按照我们的服务条款下载或使用此模型时，应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决可能出现的产品滥用问题。

请在此报告安全漏洞或英伟达AI相关问题。

引用

如果您认为我们的数据集有帮助，请引用以下论文：

@article{liu2025prorl,
  author    = {Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong},
  title={ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models}, 
  journal   = {arXiv preprint},
  year      = {2025},
  archivePrefix = {arXiv},
  primaryClass = {cs.CL},
  url={https://arxiv.org/abs/2505.24864}, 
}