RPT - DeepSeek - R1 - 0528 - Qwen3 - 8B開源模型，專注提升數學推理能力

首頁

RPT DeepSeek R1 0528 Qwen3 8B

由ykarout開發

該模型是基於DeepSeek-R1-0528-Qwen3-8B的微調版本，使用TRL和GRPO方法進行訓練，專注於數學推理能力的提升。

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #GRPO強化訓練 #多語言數學推理 #RPT預訓練優化

下載量 401

發布時間 : 7/3/2025

模型概述

該模型是一個經過GRPO方法微調的大語言模型，主要用於數學推理任務，支持多種語言。

模型特點

GRPO訓練方法

採用GRPO（Group Relative Policy Optimization）方法進行訓練，該方法在數學推理任務中表現出色。

多語言支持

支持英語、西班牙語、法語和阿拉伯語等多種語言。

強化預訓練

基於RPT（強化預訓練）方法，進一步提升了模型的推理能力。

模型能力

數學推理

多語言文本生成

強化學習優化

使用案例

教育

數學問題解答

用於解答覆雜的數學問題，幫助學生理解數學概念。

在數學推理任務中表現優異。

研究

數學推理研究

用於研究大語言模型在數學推理任務中的表現和優化方法。

在DeepSeekMath論文中展示了優異的性能。

屬性	詳情
基礎模型	deepseek-ai/DeepSeek-R1-0528-Qwen3-8B
庫名稱	transformers
模型名稱	DeepSeek-R1-0528-Qwen3-8B-GRPO-trlv5
標籤	generated_from_trainer、trl、grpo、rpt
許可證	apache-2.0
支持語言	en、es、fr、ar

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

RPT DeepSeek R1 0528 Qwen3 8B

模型概述

模型特點

模型能力

使用案例

🚀 RPT-DeepSeek-R1-0528-Qwen3-8B模型卡片

📚 詳細文檔

模型信息

框架版本

📄 許可證

📚 引用信息

引用GRPO

引用TRL