O

Open Reasoner Zero 32B

由Open-Reasoner-Zero開發
首個專注於可擴展性、簡潔性和易用性的大規模推理導向強化學習的開源實現
下載量 498
發布時間 : 2/18/2025

模型概述

開放推理者零號是基於基礎模型規模化強化學習的開源方案,專注於推理能力的提升,適用於數學推理等高難度任務。

模型特點

規模化強化學習
支持從5億到320億參數規模的模型訓練,展示一致的擴展能力
高效訓練
僅需十分之一的訓練步數即可達到或超越同類模型性能
開源完整
公開源代碼、參數設置、訓練數據和模型權重
資源優化
提供單GPU訓練方案,降低研究門檻

模型能力

數學問題求解
複雜推理
多步問題解答
高難度競賽題解答

使用案例

教育
數學競賽題解答
解答AIME等數學競賽題目
在AIME2024上達到48%準確率
數學學習輔助
提供分步數學問題解答
研究
強化學習研究
作為規模化強化學習的基準模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase