N

Nemotron Research Reasoning Qwen 1.5B

由 nvidia 开发
一款15亿参数的开源权重模型,专为复杂推理任务设计,在数学、编码、科学及逻辑谜题等领域表现卓越。
下载量 1,236
发布时间 : 5/28/2025

模型简介

奈莫特朗研究推理模型Qwen-1.5B是一款领先的15亿参数开源权重模型,专为复杂推理任务设计,采用ProRL算法在多样化数据集上进行训练,在数学、编码、科学及逻辑谜题等领域表现卓越。

模型特点

ProRL算法
延长强化学习训练周期,支持超过2000个训练步骤,深入探索推理策略。
组相对策略优化(GRPO)
引入缓解熵坍塌、解耦裁剪和动态采样策略优化(DAPO)、KL正则化和参考策略重置三项关键技术。
卓越的推理能力
在数学、编码、STEM推理、逻辑谜题和指令遵循等任务中表现卓越,显著超越同类模型。

模型能力

数学问题求解
编码挑战
科学问题推理
逻辑谜题解答
STEM推理
指令遵循

使用案例

教育
数学竞赛题解答
用于解答AIME、AMC等数学竞赛题目
在AIME24和AIME25中分别达到48.13%和33.33%的pass@1
编程竞赛题解答
用于解答Codeforces等编程竞赛题目
在Codeforces基准测试中达到34.50%的pass@1
研究
STEM问题研究
用于解决复杂的STEM领域问题
在GPQA基准测试中达到41.78%的pass@1
逻辑谜题研究
用于解决复杂的逻辑谜题
在推理基准测试中达到59.06%的pass@1
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase