🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact
本項目提供了一個基於DeepSeek-R1-0528
模型的GPTQ量化版本,採用Int4 + 選擇性Int8的量化方案。該方案僅對量化敏感的層採用Int8,其餘層使用Int4,在保證生成質量的同時,儘可能減小文件大小。
🚀 快速開始
本倉庫提供了DeepSeek-R1-0528
模型的Int4 + 選擇性Int8 GPTQ量化版本。僅對量化高度敏感的層採用Int8,其餘層保持Int4,在最小化文件大小的同時保證生成質量。
初步測試表明,在vLLM當前的DeepSeek-R1實現中,將整個模型轉換為純Int4(AWQ/GPTQ)會降低推理準確性並可能產生錯誤輸出。逐層細粒度量化可顯著緩解此問題。
臨時補丁
vLLM == 0.9.0 尚未原生支持MoE模塊的逐層量化。我們在gptq_marlin.py
中添加了get_moe_quant_method
作為臨時修復。在上游PR合併之前,請用本倉庫提供的文件替換原文件。
✨ 主要特性
變體概述
變體 |
特性 |
文件大小 |
推薦場景 |
Lite |
僅將最關鍵的層升級為Int8,大小接近純Int4 |
355 GB |
資源受限的輕量級服務器部署 |
Compact |
更多Int8層,輸出質量相對較高 |
414 GB |
顯存充足、注重答案質量的部署(如8 × A100) |
Medium |
Compact + 全Int8注意力層,高質量且長上下文損失減少 |
445 GB |
顯存豐富、需要頂級答案質量和高併發的部署(如8 × H20) |
請根據您的硬件和質量要求選擇最合適的變體。
模型更新日期
2025-05-31
1. fast commit
依賴項
vllm==0.9.0
transformers==4.52.3
關於新版VLLM的注意事項
⚠️ 重要提示
在啟動vLLM之前,請設置環境變量:
export VLLM_USE_V1=0
gptq_marlin.py
補丁
⚠️ 重要提示
目前,vllm==0.9.0不支持對MoE模塊進行逐層量化配置,這會導致加載模型時出錯。我們在gptq_marlin.py
中添加了get_moe_quant_method
函數作為臨時修復。在上游PR合併之前,請將您安裝中的gptq_marlin.py
文件替換為附件中的版本,路徑為:
.../site-packages/vllm/model_executor/layers/quantization/gptq_marlin.py
模型列表
文件大小 |
最新更新時間 |
414GB |
2025-06-01 |
📦 安裝指南
模型下載
from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")
📚 詳細文檔
DeepSeek-R1-0528介紹
論文鏈接
1. 簡介
DeepSeek R1模型進行了小版本升級,當前版本為DeepSeek-R1-0528。在最新更新中,DeepSeek R1通過增加計算資源和引入算法優化機制,在訓練後顯著提高了推理深度和推理能力。該模型在各種基準測試中表現出色,包括數學、編程和通用邏輯。其整體性能現已接近領先模型,如O3和Gemini 2.5 Pro。
與上一版本相比,升級後的模型在處理複雜推理任務方面有顯著改進。例如,在2025年的AIME測試中,模型的準確率從之前版本的70%提高到了當前版本的87.5%。這一進步源於推理過程中思維深度的增強:在AIME測試集中,之前的模型平均每題使用12K個標記,而新版本平均每題使用23K個標記。
除了提高推理能力外,此版本還降低了幻覺率,增強了對函數調用的支持,並提供了更好的氛圍編碼體驗。
2. 評估結果
DeepSeek-R1-0528
我們所有模型的最大生成長度均設置為64K個標記。對於需要採樣的基準測試,我們使用溫度值為$0.6$,top-p值為$0.95$,併為每個查詢生成16個響應以估計pass@1。
類別 |
基準測試(指標) |
DeepSeek R1 |
DeepSeek R1 0528 |
通用 |
|
|
|
|
MMLU-Redux (EM) |
92.9 |
93.4 |
|
MMLU-Pro (EM) |
84.0 |
85.0 |
|
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
|
SimpleQA (Correct) |
30.1 |
27.8 |
|
FRAMES (Acc.) |
82.5 |
83.0 |
|
人類最後考試 (Pass@1) |
8.5 |
17.7 |
代碼 |
|
|
|
|
LiveCodeBench (2408 - 2505) (Pass@1) |
63.5 |
73.3 |
|
Codeforces-Div1 (Rating) |
1530 |
1930 |
|
SWE Verified (Resolved) |
49.2 |
57.6 |
|
Aider-Polyglot (Acc.) |
53.3 |
71.6 |
數學 |
|
|
|
|
AIME 2024 (Pass@1) |
79.8 |
91.4 |
|
AIME 2025 (Pass@1) |
70.0 |
87.5 |
|
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
|
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
工具 |
|
|
|
|
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
|
Tau-Bench (Pass@1) |
- |
53.5(航空)/ 63.9(零售) |
注意:我們使用無代理框架評估模型在SWE-Verified上的性能。我們僅評估HLE測試集中的純文本提示。在Tau-bench評估中,使用GPT-4.1扮演用戶角色。
📄 許可證
本代碼倉庫遵循MIT許可證。DeepSeek-R1模型的使用也遵循MIT許可證。DeepSeek-R1系列(包括基礎版和聊天版)支持商業使用和蒸餾。
🔗 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
📞 聯繫我們
如果您有任何問題,請提交issue或通過service@deepseek.com與我們聯繫。