A

Acereason Nemotron 14B GGUF

由unsloth開發
基於強化學習訓練的數學與編程推理模型,在多項基準測試中表現優異
下載量 1,417
發布時間 : 5/23/2025

模型概述

AceReason-Nemotron-14B是一個完全通過強化學習訓練的數學與編程推理模型,基於DeepSeek-R1-Distilled-Qwen-14B開發,在數學和編程推理任務上取得了顯著提升。

模型特點

強化學習訓練
完全通過強化學習訓練,顯著提升數學和編程推理能力
兩階段訓練方法
先在純數學提示上進行RL訓練,然後在純編程提示上進行RL訓練
跨領域提升
純數學RL不僅提升數學能力,還提升了編程推理表現
Unsloth優化
採用Unsloth Dynamic 2.0實現卓越的準確性,超越其他量化方法

模型能力

數學推理
編程推理
複雜問題解決
代碼生成

使用案例

數學競賽
AIME競賽題解答
解決美國數學邀請賽(AIME)題目
AIME 2024達到78.6%,提升8.9%
編程競賽
LiveCodeBench測試
解決編程競賽題目
LiveCodeBench v5達到61.1%,提升8%
Codeforces競賽
解決Codeforces編程題目
Codeforces得分提升543分
教育
數學學習輔助
幫助學生理解和解決複雜數學問題
編程學習輔助
輔助學習算法和編程技巧
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase