OpenRS3-GRPO-jaオープンソースAIモデル - 無料デプロイで日本語の数学推理タスクを支援

Openrs3 GRPO Ja

Developed by EQUES

OpenRS3-GRPO-jaはSakanaAI/TinySwallow-1.5B-Instructモデルを日本語数学指示データセットでファインチューニングしたバージョンで、GRPO手法を用いてトレーニングされ、数学推論タスクに特化しています。

大規模言語モデル

Transformers

#数学推論最適化 #日本語指示ファインチューニング #GRPOトレーニング

Downloads 25

Release Time : 4/4/2025

Model Overview

このモデルは日本語言語モデルで、数学推論タスク向けに最適化されており、数学関連の指示応答生成に適しています。

Model Features

GRPOトレーニング手法

DeepSeekMath論文で提案されたGRPO手法を用いてトレーニングされ、数学推論能力を最適化しています。

日本語数学指示最適化

OpenMathInstruct-1-1.8m-ja日本語数学指示データセットでファインチューニングされており、日本語の数学問題処理に優れています。

TRLフレームワークトレーニング

TRL(Transformerベースの強化学習)フレームワークを使用してトレーニングされ、合計300ステップのトレーニングが行われました。

Model Capabilities

日本語テキスト生成

数学問題解答

指示理解と応答

Use Cases

教育

数学問題解答

学生が数学問題を理解し解答するのを支援

詳細な解答手順と説明を生成

研究

数学推論研究

数学推論能力の研究と評価に使用

🚀 OpenRS3 - GRPO - ja

このモデルは、kunishou/OpenMathInstruct - 1 - 1.8m - ja データセットで SakanaAI/TinySwallow - 1.5B - Instruct をファインチューニングしたバージョンです。TRL を使用してトレーニングされています。トレーニングステップ数は300です。

🚀 クイックスタート

from transformers import pipeline

question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
generator = pipeline("text-generation", model="stardust-eques/OpenRS-GRPO-ja", device="cuda")
output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
print(output["generated_text"])

✨ 主な機能

このモデルは、特定のデータセットでファインチューニングされ、数学的な推論能力を強化しています。また、TRLを用いたトレーニングにより、性能が向上しています。

📦 インストール

このREADMEには具体的なインストール手順が記載されていないため、このセクションを省略します。

📚 ドキュメント

トレーニング手順

このモデルは、DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models で紹介されたGRPOという手法を用いてトレーニングされました。

フレームワークのバージョン

TRL: 0.16.0.dev0
Transformers: 4.49.0
Pytorch: 2.5.1
Datasets: 3.5.0
Tokenizers: 0.21.1

情報一覧

属性	詳情
ベースモデル	SakanaAI/TinySwallow - 1.5B - Instruct
データセット	kunishou/OpenMathInstruct - 1 - 1.8m - ja
ライブラリ名	transformers
モデル名	OpenRS3 - GRPO - ja
タグ	generated_from_trainer, open - r1, trl, grpo
ライセンス	license

🔧 技術詳細

このモデルは、特定のデータセットでベースモデルをファインチューニングすることで構築されています。GRPOという手法を用いてトレーニングされ、特定のフレームワークのバージョンを使用しています。これにより、数学的な推論能力を強化したモデルを得ることができます。

📄 ライセンス

このモデルは、指定されたライセンスの下で提供されています。詳細は license を参照してください。

📚 引用

GRPOの引用

@article{zhihong2024deepseekmath,
    title        = {{DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models}},
    author       = {Zhihong Shao and Peiyi Wang and Qihao Zhu and Runxin Xu and Junxiao Song and Mingchuan Zhang and Y. K. Li and Y. Wu and Daya Guo},
    year         = 2024,
    eprint       = {arXiv:2402.03300},
}

TRLの引用

@misc{vonwerra2022trl,
	title        = {{TRL: Transformer Reinforcement Learning}},
	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
	year         = 2020,
	journal      = {GitHub repository},
	publisher    = {GitHub},
	howpublished = {\url{https://github.com/huggingface/trl}}
}