N

Nemotron Research Reasoning Qwen 1.5B

由nvidia開發
一款15億參數的開源權重模型,專為複雜推理任務設計,在數學、編碼、科學及邏輯謎題等領域表現卓越。
下載量 1,236
發布時間 : 5/28/2025

模型概述

奈莫特朗研究推理模型Qwen-1.5B是一款領先的15億參數開源權重模型,專為複雜推理任務設計,採用ProRL算法在多樣化數據集上進行訓練,在數學、編碼、科學及邏輯謎題等領域表現卓越。

模型特點

ProRL算法
延長強化學習訓練週期,支持超過2000個訓練步驟,深入探索推理策略。
組相對策略優化(GRPO)
引入緩解熵坍塌、解耦裁剪和動態採樣策略優化(DAPO)、KL正則化和參考策略重置三項關鍵技術。
卓越的推理能力
在數學、編碼、STEM推理、邏輯謎題和指令遵循等任務中表現卓越,顯著超越同類模型。

模型能力

數學問題求解
編碼挑戰
科學問題推理
邏輯謎題解答
STEM推理
指令遵循

使用案例

教育
數學競賽題解答
用於解答AIME、AMC等數學競賽題目
在AIME24和AIME25中分別達到48.13%和33.33%的pass@1
編程競賽題解答
用於解答Codeforces等編程競賽題目
在Codeforces基準測試中達到34.50%的pass@1
研究
STEM問題研究
用於解決複雜的STEM領域問題
在GPQA基準測試中達到41.78%的pass@1
邏輯謎題研究
用於解決複雜的邏輯謎題
在推理基準測試中達到59.06%的pass@1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase