O

OREAL 32B SFT

由 internlm 开发
OREAL-32B-SFT是基于Qwen2.5-32B的监督微调模型,专为数学推理任务设计,是OREA强化学习框架的初始策略模型。
下载量 18
发布时间 : 2/10/2025

模型简介

该模型是OREAL系列中的32B参数规模监督微调版本,主要用于数学推理任务,作为强化学习训练的起点。

模型特点

数学推理优化
专门针对数学推理任务进行优化,能够处理复杂的数学问题
强化学习基础
作为OREA强化学习框架的初始策略模型,为后续强化学习训练提供基础
高质量监督微调
经过精心设计的监督微调过程,确保模型具备良好的初始表现

模型能力

数学问题解答
逻辑推理
多步问题求解
数学证明生成

使用案例

教育
数学竞赛辅导
帮助学生解决数学竞赛题目,提供分步解答
数学学习辅助
为学生提供数学问题的详细解答和解释
研究
强化学习研究
作为强化学习训练的初始策略模型
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase