A

Acereason Nemotron 14B

由nvidia開發
AceReason-Nemotron-14B是一款通過強化學習訓練的數學與代碼推理模型,基於DeepSeek-R1-Distilled-Qwen-14B,在數學和代碼推理任務上表現卓越。
下載量 7,863
發布時間 : 5/20/2025

模型概述

AceReason-Nemotron-14B是一款完全通過強化學習(RL)訓練的數學與代碼推理模型,其基礎模型為DeepSeek-R1-Distilled-Qwen-14B。該模型在數學和代碼推理任務上表現卓越,通過大量消融實驗系統研究了RL訓練過程,並提出了一種簡單有效的方法:先對純數學提示進行RL訓練,再對純代碼提示進行RL訓練。

模型特點

強化學習訓練
完全通過強化學習(RL)訓練,顯著提升數學和代碼推理能力。
分階段訓練方法
先對純數學提示進行RL訓練,再對純代碼提示進行RL訓練,優化模型性能。
高性能推理
在AIME 2024、AIME 2025、LiveCodeBench等基準測試中表現卓越。

模型能力

數學推理
代碼生成
文本生成
強化學習

使用案例

數學推理
數學競賽問題解答
解決複雜的數學競賽問題,如AIME 2024和AIME 2025中的題目。
在AIME 2024上達到78.6%(提升8.9%),AIME 2025上67.4%(提升17.4%)。
代碼生成
代碼競賽問題解答
生成解決代碼競賽問題的Python代碼。
在LiveCodeBench v5上61.1%(提升8%),LiveCodeBench v6上54.9%(提升7%)。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase