DeepSeek-R1-0528-GPTQ量化模型开源 - 减小文件大小且保证生成质量

首页

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

由 QuantTrio 开发

DeepSeek-R1-0528模型的GPTQ量化版本，采用Int4 + 选择性Int8的量化方案，在保证生成质量的同时减小文件大小。

大型语言模型

Transformers

开源协议:MIT #混合精度量化 #高效推理 #长上下文处理

下载量 258

发布时间 : 6/1/2025

模型简介

该模型是DeepSeek-R1-0528的量化版本，通过混合Int4和Int8量化技术，优化了模型推理速度和显存占用，适用于不同硬件配置的部署场景。

模型特点

混合量化技术

采用Int4 + 选择性Int8的量化方案，仅对量化敏感的层采用Int8，其余层使用Int4，平衡生成质量和文件大小。

多量化变体

提供Lite、Compact和Medium三种量化变体，适应不同硬件配置和质量要求。

优化的推理性能

通过逐层细粒度量化，显著缓解纯Int4量化导致的推理准确性下降问题。

增强的推理能力

相比前版本，在处理复杂推理任务方面有显著改进，如数学问题和编程挑战。

模型能力

复杂逻辑推理

数学问题求解

代码生成与理解

长文本生成

多轮对话

使用案例

教育

数学竞赛解题

解决AIME等数学竞赛题目

AIME 2025测试中准确率达87.5%

编程教学

辅助编程学习和代码调试

LiveCodeBench测试中Pass@1达73.3%

软件开发

代码生成

根据需求生成高质量代码

SWE Verified测试中解决率达57.6%

代码审查

分析代码并提供改进建议

研究

学术问答

回答复杂学术问题

GPQA-Diamond测试中Pass@1达81.0%

🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact

本项目提供了一个基于DeepSeek-R1-0528模型的GPTQ量化版本，采用Int4 + 选择性Int8的量化方案。该方案仅对量化敏感的层采用Int8，其余层使用Int4，在保证生成质量的同时，尽可能减小文件大小。

🚀 快速开始

本仓库提供了DeepSeek-R1-0528模型的Int4 + 选择性Int8 GPTQ量化版本。仅对量化高度敏感的层采用Int8，其余层保持Int4，在最小化文件大小的同时保证生成质量。

初步测试表明，在vLLM当前的DeepSeek-R1实现中，将整个模型转换为纯Int4（AWQ/GPTQ）会降低推理准确性并可能产生错误输出。逐层细粒度量化可显著缓解此问题。

临时补丁

vLLM == 0.9.0 尚未原生支持MoE模块的逐层量化。我们在gptq_marlin.py中添加了get_moe_quant_method作为临时修复。在上游PR合并之前，请用本仓库提供的文件替换原文件。

✨ 主要特性

变体概述

变体	特性	文件大小	推荐场景
Lite	仅将最关键的层升级为Int8，大小接近纯Int4	355 GB	资源受限的轻量级服务器部署
Compact	更多Int8层，输出质量相对较高	414 GB	显存充足、注重答案质量的部署（如8 × A100）
Medium	Compact + 全Int8注意力层，高质量且长上下文损失减少	445 GB	显存丰富、需要顶级答案质量和高并发的部署（如8 × H20）

请根据您的硬件和质量要求选择最合适的变体。

模型更新日期

2025-05-31
1. fast commit

依赖项

vllm==0.9.0
transformers==4.52.3

关于新版VLLM的注意事项

⚠️ 重要提示

在启动vLLM之前，请设置环境变量：

export VLLM_USE_V1=0

`gptq_marlin.py`补丁

⚠️ 重要提示

目前，vllm==0.9.0不支持对MoE模块进行逐层量化配置，这会导致加载模型时出错。我们在gptq_marlin.py中添加了get_moe_quant_method函数作为临时修复。在上游PR合并之前，请将您安装中的gptq_marlin.py文件替换为附件中的版本，路径为：

.../site-packages/vllm/model_executor/layers/quantization/gptq_marlin.py

模型列表

文件大小	最新更新时间
`414GB`	`2025-06-01`

📦 安装指南

模型下载

from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")

📚 详细文档

DeepSeek-R1-0528介绍

论文链接

1. 简介

DeepSeek R1模型进行了小版本升级，当前版本为DeepSeek-R1-0528。在最新更新中，DeepSeek R1通过增加计算资源和引入算法优化机制，在训练后显著提高了推理深度和推理能力。该模型在各种基准测试中表现出色，包括数学、编程和通用逻辑。其整体性能现已接近领先模型，如O3和Gemini 2.5 Pro。

与上一版本相比，升级后的模型在处理复杂推理任务方面有显著改进。例如，在2025年的AIME测试中，模型的准确率从之前版本的70%提高到了当前版本的87.5%。这一进步源于推理过程中思维深度的增强：在AIME测试集中，之前的模型平均每题使用12K个标记，而新版本平均每题使用23K个标记。

除了提高推理能力外，此版本还降低了幻觉率，增强了对函数调用的支持，并提供了更好的氛围编码体验。

2. 评估结果

DeepSeek-R1-0528

我们所有模型的最大生成长度均设置为64K个标记。对于需要采样的基准测试，我们使用温度值为$0.6$，top-p值为$0.95$，并为每个查询生成16个响应以估计pass@1。

类别	基准测试（指标）	DeepSeek R1	DeepSeek R1 0528
通用
	MMLU-Redux (EM)	92.9	93.4
	MMLU-Pro (EM)	84.0	85.0
	GPQA-Diamond (Pass@1)	71.5	81.0
	SimpleQA (Correct)	30.1	27.8
	FRAMES (Acc.)	82.5	83.0
	人类最后考试 (Pass@1)	8.5	17.7
代码
	LiveCodeBench (2408 - 2505) (Pass@1)	63.5	73.3
	Codeforces-Div1 (Rating)	1530	1930
	SWE Verified (Resolved)	49.2	57.6
	Aider-Polyglot (Acc.)	53.3	71.6
数学
	AIME 2024 (Pass@1)	79.8	91.4
	AIME 2025 (Pass@1)	70.0	87.5
	HMMT 2025 (Pass@1)	41.7	79.4
	CNMO 2024 (Pass@1)	78.8	86.9
工具
	BFCL_v3_MultiTurn (Acc)	-	37.0
	Tau-Bench (Pass@1)	-	53.5（航空）/ 63.9（零售）

注意：我们使用无代理框架评估模型在SWE-Verified上的性能。我们仅评估HLE测试集中的纯文本提示。在Tau-bench评估中，使用GPT-4.1扮演用户角色。

📄 许可证

本代码仓库遵循MIT许可证。DeepSeek-R1模型的使用也遵循MIT许可证。DeepSeek-R1系列（包括基础版和聊天版）支持商业使用和蒸馏。

🔗 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}