DeepSeek-R1-0528-Qwen3-8B量化開源模型 - 提升推理減少幻覺，適用多類語言任務

首頁

Deepseek R1 0528 Qwen3 8B GPTQ Int4 Int8Mix

由QuantTrio開發

基於DeepSeek-R1-0528-Qwen3-8B開發的量化版本模型，在推理能力、減少幻覺率等方面有顯著提升，適用於多種自然語言處理任務。

大型語言模型

Transformers

開源協議:MIT #數學推理增強 #低幻覺率 #函數調用優化

下載量 154

發布時間 : 5/30/2025

模型概述

該模型通過增加計算資源和引入算法優化機制，顯著提升了推理深度和推理能力，適用於數學、編程和通用邏輯等領域。

模型特點

推理能力增強

在各種基準評估中表現出色，包括數學、編程和通用邏輯等領域，整體性能接近領先模型。

準確率提高

在AIME 2025測試中，準確率從之前版本的70%提高到當前版本的87.5%。

幻覺率降低

減少了模型產生幻覺的概率。

功能調用支持增強

更好地支持函數調用。

編碼體驗優化

提供了更好的編碼體驗。

模型能力

文本生成

數學推理

編程輔助

邏輯推理

函數調用

使用案例

數學

AIME 2025測試

在AIME 2025測試中，準確率達到87.5%。

準確率從70%提升至87.5%

編程

LiveCodeBench測試

在LiveCodeBench (2408-2505)測試中，Pass@1達到73.3%。

Pass@1從63.5%提升至73.3%

🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix

本項目基於 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 模型開發，提供了量化版本的模型，在推理能力、減少幻覺率等方面有顯著提升，適用於多種自然語言處理任務。

🚀 快速開始

環境準備

確保你已經安裝了以下依賴：

vllm==0.9.0
transformers==4.52.3

模型下載

使用以下代碼下載模型：

from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路徑")

新版 VLLM 注意事項

建議使用V0推理模式，啟動vllm之前，先設置環境變量：

export VLLM_USE_V1=0

✨ 主要特性

模型升級

DeepSeek R1模型進行了小版本升級，當前版本為DeepSeek-R1-0528。在最新更新中，通過增加計算資源和引入算法優化機制，顯著提升了推理深度和推理能力。

性能提升

推理能力增強：在各種基準評估中表現出色，包括數學、編程和通用邏輯等領域，整體性能接近領先模型，如O3和Gemini 2.5 Pro。
準確率提高：在AIME 2025測試中，準確率從之前版本的70%提高到當前版本的87.5%。
幻覺率降低：減少了模型產生幻覺的概率。
功能調用支持增強：更好地支持函數調用。
編碼體驗優化：提供了更好的編碼體驗。

📦 安裝指南

依賴安裝

vllm==0.9.0
transformers==4.52.3

💻 使用示例

基礎用法

from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路徑")

📚 詳細文檔

模型更新日期

2025-05-29
1. 首次commit

模型列表

文件大小	最近更新時間
`6.9GB`	`2025-05-29`

評估結果

DeepSeek-R1-0528

所有模型的最大生成長度設置為64K tokens。對於需要採樣的基準測試，使用溫度為 $0.6$，top-p值為 $0.95$，每個查詢生成16個響應來估計pass@1。

類別	基準測試（指標）	DeepSeek R1	DeepSeek R1 0528
通用	MMLU-Redux (EM)	92.9	93.4
通用	MMLU-Pro (EM)	84.0	85.0
通用	GPQA-Diamond (Pass@1)	71.5	81.0
通用	SimpleQA (Correct)	30.1	27.8
通用	FRAMES (Acc.)	82.5	83.0
通用	Humanity's Last Exam (Pass@1)	8.5	17.7
代碼	LiveCodeBench (2408-2505) (Pass@1)	63.5	73.3
代碼	Codeforces-Div1 (Rating)	1530	1930
代碼	SWE Verified (Resolved)	49.2	57.6
代碼	Aider-Polyglot (Acc.)	53.3	71.6
數學	AIME 2024 (Pass@1)	79.8	91.4
數學	AIME 2025 (Pass@1)	70.0	87.5
數學	HMMT 2025 (Pass@1)	41.7	79.4
數學	CNMO 2024 (Pass@1)	78.8	86.9
工具	BFCL_v3_MultiTurn (Acc)	-	37.0
工具	Tau-Bench (Pass@1)	-	53.5(Airline)/63.9(Retail)

DeepSeek-R1-0528-Qwen3-8B

將DeepSeek-R1-0528的思維鏈知識蒸餾到Qwen3 8B Base進行後訓練，得到DeepSeek-R1-0528-Qwen3-8B。該模型在AIME 2024測試中達到了開源模型的最優性能，超過Qwen3 8B模型10.0%，與Qwen3-235B-thinking性能相當。

模型	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408-2505)
Qwen3-235B-A22B	85.7	81.5	62.5	71.1	66.5
Qwen3-32B	81.4	72.9	-	68.4	-
Qwen3-8B	76.0	67.3	-	62.0	-
Phi-4-Reasoning-Plus-14B	81.3	78.0	53.6	69.3	-
Gemini-2.5-Flash-Thinking-0520	82.3	72.0	64.2	82.8	62.3
o3-mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek-R1-0528-Qwen3-8B	86.0	76.3	61.5	61.1	60.5

🔧 技術細節

推理過程優化

在推理過程中，模型的思維深度得到增強。在AIME測試集中，之前的模型每個問題平均使用12K tokens，而新版本平均每個問題使用23K tokens。

📄 許可證

本代碼倉庫遵循 MIT License。DeepSeek-R1模型的使用也遵循 MIT License。DeepSeek-R1系列（包括Base和Chat）支持商業使用和知識蒸餾。

引用信息

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}