🚀 DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix
本項目基於 deepseek-ai/DeepSeek-R1-0528-Qwen3-8B 模型開發,提供了量化版本的模型,在推理能力、減少幻覺率等方面有顯著提升,適用於多種自然語言處理任務。
🚀 快速開始
環境準備
確保你已經安裝了以下依賴:
vllm==0.9.0
transformers==4.52.3
模型下載
使用以下代碼下載模型:
from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路徑")
新版 VLLM 注意事項
建議使用V0推理模式,啟動vllm之前,先設置環境變量:
export VLLM_USE_V1=0
✨ 主要特性
模型升級
DeepSeek R1模型進行了小版本升級,當前版本為DeepSeek-R1-0528。在最新更新中,通過增加計算資源和引入算法優化機制,顯著提升了推理深度和推理能力。
性能提升
- 推理能力增強:在各種基準評估中表現出色,包括數學、編程和通用邏輯等領域,整體性能接近領先模型,如O3和Gemini 2.5 Pro。
- 準確率提高:在AIME 2025測試中,準確率從之前版本的70%提高到當前版本的87.5%。
- 幻覺率降低:減少了模型產生幻覺的概率。
- 功能調用支持增強:更好地支持函數調用。
- 編碼體驗優化:提供了更好的編碼體驗。
📦 安裝指南
依賴安裝
vllm==0.9.0
transformers==4.52.3
💻 使用示例
基礎用法
from modelscope import snapshot_download
snapshot_download('tclf90/DeepSeek-R1-0528-Qwen3-8B-GPTQ-Int4-Int8Mix', cache_dir="本地路徑")
📚 詳細文檔
模型更新日期
2025-05-29
1. 首次commit
模型列表
文件大小 |
最近更新時間 |
6.9GB |
2025-05-29 |
評估結果
DeepSeek-R1-0528
所有模型的最大生成長度設置為64K tokens。對於需要採樣的基準測試,使用溫度為 $0.6$,top-p值為 $0.95$,每個查詢生成16個響應來估計pass@1。
類別 |
基準測試(指標) |
DeepSeek R1 |
DeepSeek R1 0528 |
通用 |
MMLU-Redux (EM) |
92.9 |
93.4 |
通用 |
MMLU-Pro (EM) |
84.0 |
85.0 |
通用 |
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
通用 |
SimpleQA (Correct) |
30.1 |
27.8 |
通用 |
FRAMES (Acc.) |
82.5 |
83.0 |
通用 |
Humanity's Last Exam (Pass@1) |
8.5 |
17.7 |
代碼 |
LiveCodeBench (2408-2505) (Pass@1) |
63.5 |
73.3 |
代碼 |
Codeforces-Div1 (Rating) |
1530 |
1930 |
代碼 |
SWE Verified (Resolved) |
49.2 |
57.6 |
代碼 |
Aider-Polyglot (Acc.) |
53.3 |
71.6 |
數學 |
AIME 2024 (Pass@1) |
79.8 |
91.4 |
數學 |
AIME 2025 (Pass@1) |
70.0 |
87.5 |
數學 |
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
數學 |
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
工具 |
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
工具 |
Tau-Bench (Pass@1) |
- |
53.5(Airline)/63.9(Retail) |
DeepSeek-R1-0528-Qwen3-8B
將DeepSeek-R1-0528的思維鏈知識蒸餾到Qwen3 8B Base進行後訓練,得到DeepSeek-R1-0528-Qwen3-8B。該模型在AIME 2024測試中達到了開源模型的最優性能,超過Qwen3 8B模型10.0%,與Qwen3-235B-thinking性能相當。
模型 |
AIME 24 |
AIME 25 |
HMMT Feb 25 |
GPQA Diamond |
LiveCodeBench (2408-2505) |
Qwen3-235B-A22B |
85.7 |
81.5 |
62.5 |
71.1 |
66.5 |
Qwen3-32B |
81.4 |
72.9 |
- |
68.4 |
- |
Qwen3-8B |
76.0 |
67.3 |
- |
62.0 |
- |
Phi-4-Reasoning-Plus-14B |
81.3 |
78.0 |
53.6 |
69.3 |
- |
Gemini-2.5-Flash-Thinking-0520 |
82.3 |
72.0 |
64.2 |
82.8 |
62.3 |
o3-mini (medium) |
79.6 |
76.7 |
53.3 |
76.8 |
65.9 |
DeepSeek-R1-0528-Qwen3-8B |
86.0 |
76.3 |
61.5 |
61.1 |
60.5 |
🔧 技術細節
推理過程優化
在推理過程中,模型的思維深度得到增強。在AIME測試集中,之前的模型每個問題平均使用12K tokens,而新版本平均每個問題使用23K tokens。
📄 許可證
本代碼倉庫遵循 MIT License。DeepSeek-R1模型的使用也遵循 MIT License。DeepSeek-R1系列(包括Base和Chat)支持商業使用和知識蒸餾。
引用信息
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
聯繫方式
如果您有任何問題,請提出問題或通過 service@deepseek.com 聯繫我們。