🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact
本项目提供了一个基于DeepSeek-R1-0528
模型的GPTQ量化版本,采用Int4 + 选择性Int8的量化方案。该方案仅对量化敏感的层采用Int8,其余层使用Int4,在保证生成质量的同时,尽可能减小文件大小。
🚀 快速开始
本仓库提供了DeepSeek-R1-0528
模型的Int4 + 选择性Int8 GPTQ量化版本。仅对量化高度敏感的层采用Int8,其余层保持Int4,在最小化文件大小的同时保证生成质量。
初步测试表明,在vLLM当前的DeepSeek-R1实现中,将整个模型转换为纯Int4(AWQ/GPTQ)会降低推理准确性并可能产生错误输出。逐层细粒度量化可显著缓解此问题。
临时补丁
vLLM == 0.9.0 尚未原生支持MoE模块的逐层量化。我们在gptq_marlin.py
中添加了get_moe_quant_method
作为临时修复。在上游PR合并之前,请用本仓库提供的文件替换原文件。
✨ 主要特性
变体概述
变体 |
特性 |
文件大小 |
推荐场景 |
Lite |
仅将最关键的层升级为Int8,大小接近纯Int4 |
355 GB |
资源受限的轻量级服务器部署 |
Compact |
更多Int8层,输出质量相对较高 |
414 GB |
显存充足、注重答案质量的部署(如8 × A100) |
Medium |
Compact + 全Int8注意力层,高质量且长上下文损失减少 |
445 GB |
显存丰富、需要顶级答案质量和高并发的部署(如8 × H20) |
请根据您的硬件和质量要求选择最合适的变体。
模型更新日期
2025-05-31
1. fast commit
依赖项
vllm==0.9.0
transformers==4.52.3
关于新版VLLM的注意事项
⚠️ 重要提示
在启动vLLM之前,请设置环境变量:
export VLLM_USE_V1=0
gptq_marlin.py
补丁
⚠️ 重要提示
目前,vllm==0.9.0不支持对MoE模块进行逐层量化配置,这会导致加载模型时出错。我们在gptq_marlin.py
中添加了get_moe_quant_method
函数作为临时修复。在上游PR合并之前,请将您安装中的gptq_marlin.py
文件替换为附件中的版本,路径为:
.../site-packages/vllm/model_executor/layers/quantization/gptq_marlin.py
模型列表
文件大小 |
最新更新时间 |
414GB |
2025-06-01 |
📦 安装指南
模型下载
from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")
📚 详细文档
DeepSeek-R1-0528介绍
论文链接
1. 简介
DeepSeek R1模型进行了小版本升级,当前版本为DeepSeek-R1-0528。在最新更新中,DeepSeek R1通过增加计算资源和引入算法优化机制,在训练后显著提高了推理深度和推理能力。该模型在各种基准测试中表现出色,包括数学、编程和通用逻辑。其整体性能现已接近领先模型,如O3和Gemini 2.5 Pro。
与上一版本相比,升级后的模型在处理复杂推理任务方面有显著改进。例如,在2025年的AIME测试中,模型的准确率从之前版本的70%提高到了当前版本的87.5%。这一进步源于推理过程中思维深度的增强:在AIME测试集中,之前的模型平均每题使用12K个标记,而新版本平均每题使用23K个标记。
除了提高推理能力外,此版本还降低了幻觉率,增强了对函数调用的支持,并提供了更好的氛围编码体验。
2. 评估结果
DeepSeek-R1-0528
我们所有模型的最大生成长度均设置为64K个标记。对于需要采样的基准测试,我们使用温度值为$0.6$,top-p值为$0.95$,并为每个查询生成16个响应以估计pass@1。
类别 |
基准测试(指标) |
DeepSeek R1 |
DeepSeek R1 0528 |
通用 |
|
|
|
|
MMLU-Redux (EM) |
92.9 |
93.4 |
|
MMLU-Pro (EM) |
84.0 |
85.0 |
|
GPQA-Diamond (Pass@1) |
71.5 |
81.0 |
|
SimpleQA (Correct) |
30.1 |
27.8 |
|
FRAMES (Acc.) |
82.5 |
83.0 |
|
人类最后考试 (Pass@1) |
8.5 |
17.7 |
代码 |
|
|
|
|
LiveCodeBench (2408 - 2505) (Pass@1) |
63.5 |
73.3 |
|
Codeforces-Div1 (Rating) |
1530 |
1930 |
|
SWE Verified (Resolved) |
49.2 |
57.6 |
|
Aider-Polyglot (Acc.) |
53.3 |
71.6 |
数学 |
|
|
|
|
AIME 2024 (Pass@1) |
79.8 |
91.4 |
|
AIME 2025 (Pass@1) |
70.0 |
87.5 |
|
HMMT 2025 (Pass@1) |
41.7 |
79.4 |
|
CNMO 2024 (Pass@1) |
78.8 |
86.9 |
工具 |
|
|
|
|
BFCL_v3_MultiTurn (Acc) |
- |
37.0 |
|
Tau-Bench (Pass@1) |
- |
53.5(航空)/ 63.9(零售) |
注意:我们使用无代理框架评估模型在SWE-Verified上的性能。我们仅评估HLE测试集中的纯文本提示。在Tau-bench评估中,使用GPT-4.1扮演用户角色。
📄 许可证
本代码仓库遵循MIT许可证。DeepSeek-R1模型的使用也遵循MIT许可证。DeepSeek-R1系列(包括基础版和聊天版)支持商业使用和蒸馏。
🔗 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
📞 联系我们
如果您有任何问题,请提交issue或通过service@deepseek.com与我们联系。