R

RPT DeepSeek R1 0528 Qwen3 8B

由ykarout開發
該模型是基於DeepSeek-R1-0528-Qwen3-8B的微調版本,使用TRL和GRPO方法進行訓練,專注於數學推理能力的提升。
下載量 401
發布時間 : 7/3/2025

模型概述

該模型是一個經過GRPO方法微調的大語言模型,主要用於數學推理任務,支持多種語言。

模型特點

GRPO訓練方法
採用GRPO(Group Relative Policy Optimization)方法進行訓練,該方法在數學推理任務中表現出色。
多語言支持
支持英語、西班牙語、法語和阿拉伯語等多種語言。
強化預訓練
基於RPT(強化預訓練)方法,進一步提升了模型的推理能力。

模型能力

數學推理
多語言文本生成
強化學習優化

使用案例

教育
數學問題解答
用於解答覆雜的數學問題,幫助學生理解數學概念。
在數學推理任務中表現優異。
研究
數學推理研究
用於研究大語言模型在數學推理任務中的表現和優化方法。
在DeepSeekMath論文中展示了優異的性能。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase