DeepSeek-R1-0528-GPTQ量化模型開源 - 減小文件大小且保證生成質量

首頁

Deepseek R1 0528 GPTQ Int4 Int8Mix Compact

由QuantTrio開發

DeepSeek-R1-0528模型的GPTQ量化版本，採用Int4 + 選擇性Int8的量化方案，在保證生成質量的同時減小文件大小。

大型語言模型

Transformers

開源協議:MIT #混合精度量化 #高效推理 #長上下文處理

下載量 258

發布時間 : 6/1/2025

模型概述

該模型是DeepSeek-R1-0528的量化版本，通過混合Int4和Int8量化技術，優化了模型推理速度和顯存佔用，適用於不同硬件配置的部署場景。

模型特點

混合量化技術

採用Int4 + 選擇性Int8的量化方案，僅對量化敏感的層採用Int8，其餘層使用Int4，平衡生成質量和文件大小。

多量化變體

提供Lite、Compact和Medium三種量化變體，適應不同硬件配置和質量要求。

優化的推理性能

通過逐層細粒度量化，顯著緩解純Int4量化導致的推理準確性下降問題。

增強的推理能力

相比前版本，在處理複雜推理任務方面有顯著改進，如數學問題和編程挑戰。

模型能力

複雜邏輯推理

數學問題求解

代碼生成與理解

長文本生成

多輪對話

使用案例

教育

數學競賽解題

解決AIME等數學競賽題目

AIME 2025測試中準確率達87.5%

編程教學

輔助編程學習和代碼調試

LiveCodeBench測試中Pass@1達73.3%

軟件開發

代碼生成

根據需求生成高質量代碼

SWE Verified測試中解決率達57.6%

代碼審查

分析代碼並提供改進建議

研究

學術問答

回答複雜學術問題

GPQA-Diamond測試中Pass@1達81.0%

🚀 DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact

本項目提供了一個基於DeepSeek-R1-0528模型的GPTQ量化版本，採用Int4 + 選擇性Int8的量化方案。該方案僅對量化敏感的層採用Int8，其餘層使用Int4，在保證生成質量的同時，儘可能減小文件大小。

🚀 快速開始

本倉庫提供了DeepSeek-R1-0528模型的Int4 + 選擇性Int8 GPTQ量化版本。僅對量化高度敏感的層採用Int8，其餘層保持Int4，在最小化文件大小的同時保證生成質量。

初步測試表明，在vLLM當前的DeepSeek-R1實現中，將整個模型轉換為純Int4（AWQ/GPTQ）會降低推理準確性並可能產生錯誤輸出。逐層細粒度量化可顯著緩解此問題。

臨時補丁

vLLM == 0.9.0 尚未原生支持MoE模塊的逐層量化。我們在gptq_marlin.py中添加了get_moe_quant_method作為臨時修復。在上游PR合併之前，請用本倉庫提供的文件替換原文件。

✨ 主要特性

變體概述

變體	特性	文件大小	推薦場景
Lite	僅將最關鍵的層升級為Int8，大小接近純Int4	355 GB	資源受限的輕量級服務器部署
Compact	更多Int8層，輸出質量相對較高	414 GB	顯存充足、注重答案質量的部署（如8 × A100）
Medium	Compact + 全Int8注意力層，高質量且長上下文損失減少	445 GB	顯存豐富、需要頂級答案質量和高併發的部署（如8 × H20）

請根據您的硬件和質量要求選擇最合適的變體。

模型更新日期

2025-05-31
1. fast commit

依賴項

vllm==0.9.0
transformers==4.52.3

關於新版VLLM的注意事項

⚠️ 重要提示

在啟動vLLM之前，請設置環境變量：

export VLLM_USE_V1=0

`gptq_marlin.py`補丁

⚠️ 重要提示

目前，vllm==0.9.0不支持對MoE模塊進行逐層量化配置，這會導致加載模型時出錯。我們在gptq_marlin.py中添加了get_moe_quant_method函數作為臨時修復。在上游PR合併之前，請將您安裝中的gptq_marlin.py文件替換為附件中的版本，路徑為：

.../site-packages/vllm/model_executor/layers/quantization/gptq_marlin.py

模型列表

文件大小	最新更新時間
`414GB`	`2025-06-01`

📦 安裝指南

模型下載

from huggingface_hub import snapshot_download
snapshot_download('QuantTrio/DeepSeek-R1-0528-GPTQ-Int4-Int8Mix-Compact', cache_dir="local_path")

📚 詳細文檔

DeepSeek-R1-0528介紹

論文鏈接

1. 簡介

DeepSeek R1模型進行了小版本升級，當前版本為DeepSeek-R1-0528。在最新更新中，DeepSeek R1通過增加計算資源和引入算法優化機制，在訓練後顯著提高了推理深度和推理能力。該模型在各種基準測試中表現出色，包括數學、編程和通用邏輯。其整體性能現已接近領先模型，如O3和Gemini 2.5 Pro。

與上一版本相比，升級後的模型在處理複雜推理任務方面有顯著改進。例如，在2025年的AIME測試中，模型的準確率從之前版本的70%提高到了當前版本的87.5%。這一進步源於推理過程中思維深度的增強：在AIME測試集中，之前的模型平均每題使用12K個標記，而新版本平均每題使用23K個標記。

除了提高推理能力外，此版本還降低了幻覺率，增強了對函數調用的支持，並提供了更好的氛圍編碼體驗。

2. 評估結果

DeepSeek-R1-0528

我們所有模型的最大生成長度均設置為64K個標記。對於需要採樣的基準測試，我們使用溫度值為$0.6$，top-p值為$0.95$，併為每個查詢生成16個響應以估計pass@1。

類別	基準測試（指標）	DeepSeek R1	DeepSeek R1 0528
通用
	MMLU-Redux (EM)	92.9	93.4
	MMLU-Pro (EM)	84.0	85.0
	GPQA-Diamond (Pass@1)	71.5	81.0
	SimpleQA (Correct)	30.1	27.8
	FRAMES (Acc.)	82.5	83.0
	人類最後考試 (Pass@1)	8.5	17.7
代碼
	LiveCodeBench (2408 - 2505) (Pass@1)	63.5	73.3
	Codeforces-Div1 (Rating)	1530	1930
	SWE Verified (Resolved)	49.2	57.6
	Aider-Polyglot (Acc.)	53.3	71.6
數學
	AIME 2024 (Pass@1)	79.8	91.4
	AIME 2025 (Pass@1)	70.0	87.5
	HMMT 2025 (Pass@1)	41.7	79.4
	CNMO 2024 (Pass@1)	78.8	86.9
工具
	BFCL_v3_MultiTurn (Acc)	-	37.0
	Tau-Bench (Pass@1)	-	53.5（航空）/ 63.9（零售）

注意：我們使用無代理框架評估模型在SWE-Verified上的性能。我們僅評估HLE測試集中的純文本提示。在Tau-bench評估中，使用GPT-4.1扮演用戶角色。

📄 許可證

本代碼倉庫遵循MIT許可證。DeepSeek-R1模型的使用也遵循MIT許可證。DeepSeek-R1系列（包括基礎版和聊天版）支持商業使用和蒸餾。

🔗 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}