R

RPT DeepSeek R1 0528 Qwen3 8B

由 ykarout 开发
该模型是基于DeepSeek-R1-0528-Qwen3-8B的微调版本,使用TRL和GRPO方法进行训练,专注于数学推理能力的提升。
下载量 401
发布时间 : 7/3/2025

模型简介

该模型是一个经过GRPO方法微调的大语言模型,主要用于数学推理任务,支持多种语言。

模型特点

GRPO训练方法
采用GRPO(Group Relative Policy Optimization)方法进行训练,该方法在数学推理任务中表现出色。
多语言支持
支持英语、西班牙语、法语和阿拉伯语等多种语言。
强化预训练
基于RPT(强化预训练)方法,进一步提升了模型的推理能力。

模型能力

数学推理
多语言文本生成
强化学习优化

使用案例

教育
数学问题解答
用于解答复杂的数学问题,帮助学生理解数学概念。
在数学推理任务中表现优异。
研究
数学推理研究
用于研究大语言模型在数学推理任务中的表现和优化方法。
在DeepSeekMath论文中展示了优异的性能。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase