O

Openrs GRPO

由 knoveleng 开发
Open RS是一个基于强化学习优化的小规模语言模型项目,专注于提升1.5B参数模型的数学推理能力,在资源受限条件下实现高效训练。
下载量 30
发布时间 : 3/18/2025

模型简介

该项目探索通过强化学习(RL)提升小规模语言模型的推理能力,采用分组相对策略优化(GRPO)算法,使用精选数学推理数据集进行训练。

模型特点

高效强化学习训练
仅需7,000个样本和42美元成本,在24小时内完成训练
显著推理能力提升
AMC23准确率从63%提升至80%,AIME24达到46.7%超越基线模型
资源友好型优化
仅需4块NVIDIA A40 GPU(每块48GB显存)即可完成训练

模型能力

数学问题求解
逻辑推理
文本生成

使用案例

教育
数学竞赛题解答
解决AMC/AIME等数学竞赛题目
AMC23准确率80%,AIME24准确率46.7%
研究
小模型优化研究
探索资源受限条件下的模型优化方法
验证RL方法对小模型的有效性
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase