O

Openrs GRPO

由knoveleng開發
Open RS是一個基於強化學習優化的小規模語言模型項目,專注於提升1.5B參數模型的數學推理能力,在資源受限條件下實現高效訓練。
下載量 30
發布時間 : 3/18/2025

模型概述

該項目探索通過強化學習(RL)提升小規模語言模型的推理能力,採用分組相對策略優化(GRPO)算法,使用精選數學推理數據集進行訓練。

模型特點

高效強化學習訓練
僅需7,000個樣本和42美元成本,在24小時內完成訓練
顯著推理能力提升
AMC23準確率從63%提升至80%,AIME24達到46.7%超越基線模型
資源友好型優化
僅需4塊NVIDIA A40 GPU(每塊48GB顯存)即可完成訓練

模型能力

數學問題求解
邏輯推理
文本生成

使用案例

教育
數學競賽題解答
解決AMC/AIME等數學競賽題目
AMC23準確率80%,AIME24準確率46.7%
研究
小模型優化研究
探索資源受限條件下的模型優化方法
驗證RL方法對小模型的有效性
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase