DeepSeek-R1-0528-AWQ开源模型 - 适合高端GPU节点，释放强大应用潜能

首页

Deepseek R1 0528 AWQ

由 adamo1139 开发

DeepSeek-R1-0528 671B模型的4位AWQ量化版本，适合在高端GPU节点上使用

大型语言模型

Transformers

开源协议:MIT #4位量化推理 #超大规模模型 #复杂任务处理

下载量 161

发布时间 : 5/31/2025

模型简介

这是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，适合搭配vLLM和SGLang在8xA100/8xH20/8xH100等GPU节点上使用。

模型特点

高性能推理

在数学、编程和通用逻辑等各种基准评估中表现出色，整体性能接近O3和Gemini 2.5 Pro等领先模型

量化优化

使用4位AWQ量化技术，降低模型运行时的内存需求，同时保持较高的性能

增强的推理深度

通过后期训练中的算法优化机制，显著提升了推理深度和推理能力

降低幻觉率

相比前版本，新版本降低了幻觉率，提供更准确的回答

模型能力

复杂数学问题求解

编程代码生成

逻辑推理

多轮对话

文件内容分析

网页搜索结果整合

使用案例

教育

数学竞赛题解答

解答AIME、HMMT等数学竞赛题目

在AIME 2025测试中准确率达到87.5%

编程

代码生成与优化

生成和优化编程代码

在LiveCodeBench测试中Pass@1达到73.3%

研究

学术研究辅助

帮助研究人员进行文献综述和数据分析

🚀 DeepSeek-R1-0528-AWQ 671B

这是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，适合搭配vLLM和SGLang在8xA100/8xH20/8xH100等GPU节点上使用。

你可以使用vLLM在8x H100 80GB上运行此模型：

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

如果上述方法不适用，你可能需要分别使用--quantization awq_marlin和--dtype float16手动指定量化方式和数据类型。

创建该模型所使用的脚本如下：

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)


# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

我使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。为了解决此处提到的问题，我对modeling_deepseek.py进行了轻微修改。

量化操作是在配备960GB内存和800GB交换空间的8x H100 80GB节点上完成的。我以Unsloth的BF16版本为起点，但在运行AWQ量化脚本之前，我从config.json中移除了quantization_config部分。第三次尝试成功，前两次尝试均因运行15个多小时后内存溢出而失败。最后一次尝试大约花费了18个小时完成。

我打算进行一些评估，以衡量量化对下游性能的影响，但目前尚未完全确定。

这是完整的671B模型，如果你无法使用运行该模型所需的高端硬件，可以考虑运行基于Qwen3 8B的蒸馏版本。

论文链接👁️

🚀 快速开始

本项目是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，可搭配特定GPU节点和工具使用，下面为你介绍如何快速开始使用。

运行模型

你可以使用vLLM在8x H100 80GB上运行此模型，使用以下命令：

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

若上述方法不适用，你可能需要分别使用--quantization awq_marlin和--dtype float16手动指定量化方式和数据类型。

创建量化模型

创建该模型所使用的脚本如下：

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

✨ 主要特性

模型升级

DeepSeek R1模型进行了小版本升级，当前版本为DeepSeek-R1-0528。在最新更新中，DeepSeek R1通过利用更多计算资源并在后期训练中引入算法优化机制，显著提升了推理深度和推理能力。该模型在包括数学、编程和通用逻辑在内的各种基准评估中表现出色，整体性能现已接近O3和Gemini 2.5 Pro等领先模型。

性能提升

与上一版本相比，升级后的模型在处理复杂推理任务方面有显著改进。例如，在AIME 2025测试中，模型的准确率从之前版本的70%提高到当前版本的87.5%。这一进步源于推理过程中思维深度的增强：在AIME测试集中，之前的模型平均每题使用12K个标记，而新版本平均每题使用23K个标记。

其他优势

除了改进的推理能力外，此版本还降低了幻觉率，增强了对函数调用的支持，并提供了更好的氛围编码体验。

📦 安装指南

请访问DeepSeek-R1仓库，以获取有关在本地运行DeepSeek-R1-0528的更多信息。

💻 使用示例

系统提示

在官方DeepSeek网站/应用中，我们使用带有特定日期的相同系统提示：

该助手为DeepSeek-R1，由深度求索公司创造。
今天是{current date}。

示例：

该助手为DeepSeek-R1，由深度求索公司创造。
今天是2025年5月28日，星期一。

温度参数

在我们的网页和应用环境中，温度参数$T_{model}$设置为0.6。

文件上传提示

对于文件上传，请按照以下模板创建提示，其中{file_name}、{file_content}和{question}是参数：

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

网页搜索提示

对于网页搜索，{search_results}、{cur_date}和{question}是参数。对于中文查询，我们使用以下提示：

search_answer_zh_template = \
'''# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
在我给你的搜索结果中，每个结果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的数字索引。请在适当的情况下在句子末尾引用上下文。请按照引用编号[citation:X]的格式在答案中对应部分引用上下文。如果一句话源自多个上下文，请列出所有相关的引用编号，例如[citation:3][citation:5]，切记不要将引用集中在最后返回引用编号，而是在答案对应部分列出。
在回答时，请注意以下几点：
- 今天是{cur_date}。
- 并非搜索结果的所有内容都与用户的问题密切相关，你需要结合问题，对搜索结果进行甄别、筛选。
- 对于列举类的问题（如列举所有航班信息），尽量将答案控制在10个要点以内，并告诉用户可以查看搜索来源、获得完整信息。优先提供信息完整、最相关的列举项；如非必要，不要主动告诉用户搜索结果未提供的内容。
- 对于创作类的问题（如写论文），请务必在正文的段落中引用对应的参考编号，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解读并概括用户的题目要求，选择合适的格式，充分利用搜索结果并抽取重要信息，生成符合用户要求、极具思想深度、富有创造力与专业性的答案。你的创作篇幅需要尽可能延长，对于每一个要点的论述要推测用户的意图，给出尽可能多角度的回答要点，且务必信息量大、论述详尽。
- 如果回答很长，请尽量结构化、分段落总结。如果需要分点作答，尽量控制在5个点以内，并合并相关的内容。
- 对于客观类的问答，如果问题的答案非常简短，可以适当补充一到两句相关信息，以丰富内容。
- 你需要根据用户要求和回答内容选择合适、美观的回答格式，确保可读性强。
- 你的回答应该综合多个相关网页来回答，不能重复引用一个网页。
- 除非用户要求，否则你回答的语言需要和用户提问的语言保持一致。
# 用户消息为：
{question}'''

📚 详细文档

评估结果

DeepSeek-R1-0528

对于我们所有的模型，最大生成长度设置为64K标记。对于需要采样的基准测试，我们使用0.6的温度、0.95的top-p值，并为每个查询生成16个响应以估计pass@1。

| 类别 | 基准测试（指标） | DeepSeek R1 | DeepSeek R1 0528 | | ---- | ---- | ---- | ---- | | 通用 | MMLU-Redux (EM) | 92.9 | 93.4 | | 通用 | MMLU-Pro (EM) | 84.0 | 85.0 | | 通用 | GPQA-Diamond (Pass@1) | 71.5 | 81.0 | | 通用 | SimpleQA (Correct) | 30.1 | 27.8 | | 通用 | FRAMES (Acc.) | 82.5 | 83.0 | | 通用 | Humanity's Last Exam (Pass@1) | 8.5 | 17.7 | | 代码 | LiveCodeBench (2408 - 2505) (Pass@1) | 63.5 | 73.3 | | 代码 | Codeforces-Div1 (Rating) | 1530 | 1930 | | 代码 | SWE Verified (Resolved) | 49.2 | 57.6 | | 代码 | Aider-Polyglot (Acc.) | 53.3 | 71.6 | | 数学 | AIME 2024 (Pass@1) | 79.8 | 91.4 | | 数学 | AIME 2025 (Pass@1) | 70.0 | 87.5 | | 数学 | HMMT 2025 (Pass@1) | 41.7 | 79.4 | | 数学 | CNMO 2024 (Pass@1) | 78.8 | 86.9 | | 工具 | BFCL_v3_MultiTurn (Acc) | - | 37.0 | | 工具 | Tau-Bench (Pass@1) | - | 53.5(Airline)/63.9(Retail) |

注意：我们使用无代理框架来评估模型在SWE-Verified上的性能。我们仅评估HLE测试集中的纯文本提示。在Tau-bench评估中，使用GPT - 4.1扮演用户角色。

DeepSeek-R1-0528-Qwen3-8B

同时，我们将DeepSeek-R1-0528的思维链蒸馏到Qwen3 8B Base进行后期训练，得到了DeepSeek-R1-0528-Qwen3-8B。该模型在AIME 2024上的表现达到了开源模型中的最优水平，比Qwen3 8B高出10.0%，与Qwen3 - 235B - thinking的性能相当。我们认为，DeepSeek-R1-0528的思维链对于推理模型的学术研究和专注于小规模模型的工业发展都具有重要意义。

	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408 - 2505)
Qwen3 - 235B - A22B	85.7	81.5	62.5	71.1	66.5
Qwen3 - 32B	81.4	72.9	-	68.4	-
Qwen3 - 8B	76.0	67.3	-	62.0	-
Phi - 4 - Reasoning - Plus - 14B	81.3	78.0	53.6	69.3	-
Gemini - 2.5 - Flash - Thinking - 0520	82.3	72.0	64.2	82.8	62.3
o3 - mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek - R1 - 0528 - Qwen3 - 8B	86.0	76.3	61.5	61.1	60.5

聊天网站与API平台

你可以在DeepSeek的官方网站chat.deepseek.com上与DeepSeek-R1进行聊天，并开启“DeepThink”按钮。

我们还在DeepSeek平台platform.deepseek.com上提供与OpenAI兼容的API。

📄 许可证

本代码仓库遵循MIT许可证。DeepSeek-R1模型的使用也遵循MIT许可证。DeepSeek-R1系列（包括Base和Chat）支持商业使用和蒸馏。

🔧 技术细节

量化环境与修改

量化操作是在配备960GB内存和800GB交换空间的8x H100 80GB节点上完成的。使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。为了解决此处提到的问题，对modeling_deepseek.py进行了轻微修改。

量化过程

以Unsloth的BF16版本为起点，但在运行AWQ量化脚本之前，从config.json中移除了quantization_config部分。第三次尝试成功，前两次尝试均因运行15个多小时后内存溢出而失败。最后一次尝试大约花费了18个小时完成。

📚 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}