O

Openrs3 GRPO Ja

由EQUES開發
OpenRS3-GRPO-ja是基於SakanaAI/TinySwallow-1.5B-Instruct模型在日語數學指令數據集上微調的版本,採用GRPO方法訓練,專注於數學推理任務。
下載量 25
發布時間 : 4/4/2025

模型概述

該模型是一個日語語言模型,專門針對數學推理任務進行了優化,適用於生成數學相關的指令響應。

模型特點

GRPO訓練方法
採用DeepSeekMath論文中提出的GRPO方法進行訓練,優化數學推理能力。
日語數學指令優化
在OpenMathInstruct-1-1.8m-ja日語數學指令數據集上微調,擅長處理日語數學問題。
TRL框架訓練
使用TRL(基於Transformer的強化學習)框架進行訓練,共進行了300步訓練。

模型能力

日語文本生成
數學問題解答
指令理解與響應

使用案例

教育
數學問題解答
幫助學生理解和解答數學問題
生成詳細的解題步驟和解釋
研究
數學推理研究
用於數學推理能力的研究和評估
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase