A

Acereason Nemotron 7B

由nvidia開發
通過強化學習訓練的數學與代碼推理模型,基於DeepSeek-R1-Distilled-Qwen-7B,在數學和代碼推理任務上表現優異
下載量 4,278
發布時間 : 5/22/2025

模型概述

AceReason-Nemotron-7B是一個完全通過強化學習(RL)訓練的數學與代碼推理模型,其基礎模型為DeepSeek-R1-Distilled-Qwen-7B。該模型在數學和代碼推理任務上取得了顯著提升。

模型特點

強化學習訓練
完全通過強化學習(RL)訓練,顯著提升數學與代碼推理能力
數學推理能力
在AIME 2024上達到69.0%(提升14.5%),AIME 2025上53.6%(提升17.4%)
代碼推理能力
在LiveCodeBench v5上51.8%(提升8%),LiveCodeBench v6上44.1%(提升7%)
訓練方法創新
先對純數學提示進行RL訓練,再對純代碼提示進行RL訓練,效果顯著

模型能力

數學推理
代碼生成
複雜問題解決
逐步推理

使用案例

數學競賽
AIME數學競賽題解答
解決AIME數學競賽中的複雜問題
在AIME 2024上達到69.0%準確率
編程競賽
LiveCodeBench編程題解答
解決LiveCodeBench中的編程問題
在LiveCodeBench v5上51.8%準確率
教育輔助
數學學習輔助
幫助學生理解複雜數學概念和解題方法
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase