O

OREAL 32B SFT

由internlm開發
OREAL-32B-SFT是基於Qwen2.5-32B的監督微調模型,專為數學推理任務設計,是OREA強化學習框架的初始策略模型。
下載量 18
發布時間 : 2/10/2025

模型概述

該模型是OREAL系列中的32B參數規模監督微調版本,主要用於數學推理任務,作為強化學習訓練的起點。

模型特點

數學推理優化
專門針對數學推理任務進行優化,能夠處理複雜的數學問題
強化學習基礎
作為OREA強化學習框架的初始策略模型,為後續強化學習訓練提供基礎
高質量監督微調
經過精心設計的監督微調過程,確保模型具備良好的初始表現

模型能力

數學問題解答
邏輯推理
多步問題求解
數學證明生成

使用案例

教育
數學競賽輔導
幫助學生解決數學競賽題目,提供分步解答
數學學習輔助
為學生提供數學問題的詳細解答和解釋
研究
強化學習研究
作為強化學習訓練的初始策略模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase