RPT - DeepSeek - R1 - 0528 - Qwen3 - 8Bオープンソースモデルは、数学的推論能力の向上に特化しています。

RPT DeepSeek R1 0528 Qwen3 8B

ykaroutによって開発

このモデルはDeepSeek-R1-0528-Qwen3-8Bをベースにした微調整バージョンで、TRLとGRPOの方法を用いて訓練され、数学的推論能力の向上に特化しています。

ダウンロード数 401

リリース時間 : 7/3/2025

モデル概要

このモデルはGRPO方法で微調整された大規模言語モデルで、主に数学的推論タスクに使用され、複数の言語をサポートします。

GRPO訓練方法

GRPO（Group Relative Policy Optimization）方法を用いて訓練され、この方法は数学的推論タスクで優れた性能を発揮します。

多言語サポート

英語、スペイン語、フランス語、アラビア語などの複数の言語をサポートします。

強化事前学習

RPT（強化事前学習）方法に基づいて、モデルの推論能力がさらに向上しました。

数学的推論

多言語テキスト生成

強化学習最適化

教育

数学問題の解答

複雑な数学問題の解答に使用され、学生が数学の概念を理解するのを助けます。

数学的推論タスクで優れた性能を発揮します。

研究

数学的推論の研究

大規模言語モデルの数学的推論タスクにおける性能と最適化方法の研究に使用されます。

DeepSeekMath論文で優れた性能が示されています。

属性	詳細
ベースモデル	deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
ライブラリ名	transformers
モデル名	DeepSeek-R1-0528-Qwen3-8B-GRPO-trlv5
タグ	generated_from_trainer、trl、grpo、rpt
ライセンス	apache-2.0
サポート言語	en、es、fr、ar