Nemotron-Research-Reasoning-Qwen-1.5B開源模型 - 助力數學、編碼等複雜推理任務

首頁

Nemotron Research Reasoning Qwen 1.5B

由nvidia開發

一款15億參數的開源權重模型，專為複雜推理任務設計，在數學、編碼、科學及邏輯謎題等領域表現卓越。

大型語言模型

Transformers

英語#複雜推理優化 #STEM問題求解 #強化學習增強

下載量 1,236

發布時間 : 5/28/2025

模型概述

奈莫特朗研究推理模型Qwen-1.5B是一款領先的15億參數開源權重模型，專為複雜推理任務設計，採用ProRL算法在多樣化數據集上進行訓練，在數學、編碼、科學及邏輯謎題等領域表現卓越。

模型特點

ProRL算法

延長強化學習訓練週期，支持超過2000個訓練步驟，深入探索推理策略。

組相對策略優化（GRPO）

引入緩解熵坍塌、解耦裁剪和動態採樣策略優化（DAPO）、KL正則化和參考策略重置三項關鍵技術。

卓越的推理能力

在數學、編碼、STEM推理、邏輯謎題和指令遵循等任務中表現卓越，顯著超越同類模型。

模型能力

數學問題求解

編碼挑戰

科學問題推理

邏輯謎題解答

STEM推理

指令遵循

使用案例

教育

數學競賽題解答

用於解答AIME、AMC等數學競賽題目

在AIME24和AIME25中分別達到48.13%和33.33%的pass@1

編程競賽題解答

用於解答Codeforces等編程競賽題目

在Codeforces基準測試中達到34.50%的pass@1

研究

STEM問題研究

用於解決複雜的STEM領域問題

在GPQA基準測試中達到41.78%的pass@1

邏輯謎題研究

用於解決複雜的邏輯謎題

在推理基準測試中達到59.06%的pass@1

🚀 奈莫特朗研究推理模型Qwen-1.5B

奈莫特朗研究推理模型Qwen-1.5B是一款領先的15億參數開源權重模型，專為複雜推理任務設計，在數學、編碼、科學及邏輯謎題等領域表現卓越。

DeepSeek-R1-1.5B與奈莫特朗研究推理模型Qwen-1.5B的對比

🚀 快速開始

奈莫特朗研究推理模型Qwen-1.5B是全球領先的用於複雜推理任務的15億參數開源權重模型，可處理如數學問題、編碼挑戰、科學問題和邏輯謎題等任務。它採用ProRL算法在多樣化且全面的數據集上進行訓練。該模型取得了令人矚目的成果，在包括數學、編碼和GPQA等廣泛任務中，大幅超越了Deepseek的15億參數模型。

請注意，此模型僅用於研究和開發。

✨ 主要特性

ProRL：延長強化學習

ProRL旨在實現更長的強化學習訓練週期，以便更深入地探索推理策略。它支持超過2000個訓練步驟，並能在各種任務中擴展訓練數據，從傳統的數學和編碼任務到STEM問題、邏輯謎題和指令遵循等。我們假設這些對於模型的泛化能力至關重要。

基於組相對策略優化（GRPO），ProRL引入了三項關鍵技術：

緩解熵坍塌
解耦裁剪和動態採樣策略優化（DAPO）
KL正則化和參考策略重置

通過使用ProRL，我們開發出了全球最佳的15億參數推理模型，該模型顯著超越了其基礎模型DeepSeek - R1 - 1.5B，並且在各種基準測試中達到甚至超過了DeepSeek - R1 - 7B的性能。值得注意的是，與DeepSeek - R1 - 1.5B相比，我們在數學基準測試中平均pass@1提高了14.7%，在編碼任務中提高了13.9%，在邏輯謎題中提高了54.8%，在STEM推理中提高了25.1%，在指令遵循任務中提高了18.1%。

📦 安裝指南

文檔未提供安裝步驟，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

訓練數據集

數據集	鏈接
DeepScaleR預覽數據集	鏈接
Eurus - 2強化學習數據	鏈接
推理健身房	鏈接
IFEval	鏈接
SCP - 116K	鏈接

評估結果

數學領域基準測試性能（pass@1）對比

模型	AIME24	AIME25	AMC	數學	Minerva	奧林匹克競賽	平均
DeepSeek - R1 - Distill - Qwen - 1.5B	28.54	22.71	62.58	82.90	26.38	43.58	44.45
DeepScaleR - 1.5B	40.21	31.46	73.04	89.36	41.57	51.63	54.54
DeepSeek - R1 - Distill - Qwen - 7B	53.54	40.83	82.83	93.68	50.60	57.66	63.19
奈莫特朗研究推理模型Qwen - 1.5B	48.13	33.33	79.29	91.89	47.98	60.22	60.14

代碼基準測試性能（pass@1）對比

我們對代碼競賽（cc）、Codeforces（cf）、HumanEvalPlus（human）和LiveCodeBench（LCB）等基準測試名稱進行了縮寫。

模型	apps	cc	cf	taco	human	LCB	平均
DeepSeek - R1 - Distill - Qwen - 1.5B	20.95	16.79	14.13	8.03	61.77	16.80	23.08
DeepCoder - 1.5B	30.37	23.76	21.70	13.76	73.40	22.76	30.96
DeepSeek - R1 - Distill - Qwen - 7B	42.08	32.76	33.08	19.08	83.32	38.04	41.39
奈莫特朗研究推理模型Qwen - 1.5B	41.99	31.80	34.50	20.81	72.05	23.81	37.49

STEM推理、指令遵循和邏輯謎題任務性能對比

我們還展示了在分佈外（OOD）任務上的結果：acre、boxnet和生命遊戲停機問題（game）。

模型	GPQA	IFEval	推理	acre	boxnet	game
DeepSeek - R1 - Distill - Qwen - 1.5B	15.86	44.05	4.24	5.99	0.00	3.49
DeepSeek - R1 - Distill - Qwen - 7B	35.44	58.01	28.55	20.21	1.71	12.94
奈莫特朗研究推理模型Qwen - 1.5B	41.78	66.02	59.06	58.57	7.91	52.29

🔧 技術細節

ProRL算法基於組相對策略優化（GRPO），引入了緩解熵坍塌、解耦裁剪和動態採樣策略優化（DAPO）、KL正則化和參考策略重置三項關鍵技術，以實現更長的強化學習訓練週期，深入探索推理策略，支持超過2000個訓練步驟，並在多樣化任務中擴展訓練數據，從而提升模型的推理能力和泛化能力。

📄 許可證

本模型使用CC - BY - NC - 4.0許可證。

倫理考量

英偉達認為可信AI是一項共同責任，我們已經制定了相關政策和實踐，以支持各種AI應用的開發。當開發者按照我們的服務條款下載或使用此模型時，應與內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決可能出現的產品濫用問題。

請在此報告安全漏洞或英偉達AI相關問題。

引用

如果您認為我們的數據集有幫助，請引用以下論文：

@article{liu2025prorl,
  author    = {Mingjie Liu, Shizhe Diao, Ximing Lu, Jian Hu, Xin Dong, Yejin Choi, Jan Kautz, Yi Dong},
  title={ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models}, 
  journal   = {arXiv preprint},
  year      = {2025},
  archivePrefix = {arXiv},
  primaryClass = {cs.CL},
  url={https://arxiv.org/abs/2505.24864}, 
}