DeepSeek-R1-0528-AWQ開源模型 - 適合高端GPU節點，釋放強大應用潛能

首頁

Deepseek R1 0528 AWQ

由adamo1139開發

DeepSeek-R1-0528 671B模型的4位AWQ量化版本，適合在高端GPU節點上使用

大型語言模型

Transformers

開源協議:MIT #4位量化推理 #超大規模模型 #複雜任務處理

下載量 161

發布時間 : 5/31/2025

模型概述

這是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，適合搭配vLLM和SGLang在8xA100/8xH20/8xH100等GPU節點上使用。

模型特點

高性能推理

在數學、編程和通用邏輯等各種基準評估中表現出色，整體性能接近O3和Gemini 2.5 Pro等領先模型

量化優化

使用4位AWQ量化技術，降低模型運行時的內存需求，同時保持較高的性能

增強的推理深度

通過後期訓練中的算法優化機制，顯著提升了推理深度和推理能力

降低幻覺率

相比前版本，新版本降低了幻覺率，提供更準確的回答

模型能力

複雜數學問題求解

編程代碼生成

邏輯推理

多輪對話

文件內容分析

網頁搜索結果整合

使用案例

教育

數學競賽題解答

解答AIME、HMMT等數學競賽題目

在AIME 2025測試中準確率達到87.5%

編程

代碼生成與優化

生成和優化編程代碼

在LiveCodeBench測試中Pass@1達到73.3%

研究

學術研究輔助

幫助研究人員進行文獻綜述和數據分析

🚀 DeepSeek-R1-0528-AWQ 671B

這是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，適合搭配vLLM和SGLang在8xA100/8xH20/8xH100等GPU節點上使用。

你可以使用vLLM在8x H100 80GB上運行此模型：

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

如果上述方法不適用，你可能需要分別使用--quantization awq_marlin和--dtype float16手動指定量化方式和數據類型。

創建該模型所使用的腳本如下：

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)


# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

我使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。為了解決此處提到的問題，我對modeling_deepseek.py進行了輕微修改。

量化操作是在配備960GB內存和800GB交換空間的8x H100 80GB節點上完成的。我以Unsloth的BF16版本為起點，但在運行AWQ量化腳本之前，我從config.json中移除了quantization_config部分。第三次嘗試成功，前兩次嘗試均因運行15個多小時後內存溢出而失敗。最後一次嘗試大約花費了18個小時完成。

我打算進行一些評估，以衡量量化對下游性能的影響，但目前尚未完全確定。

這是完整的671B模型，如果你無法使用運行該模型所需的高端硬件，可以考慮運行基於Qwen3 8B的蒸餾版本。

論文鏈接👁️

🚀 快速開始

本項目是DeepSeek-R1-0528 671B模型的4位AWQ量化版本，可搭配特定GPU節點和工具使用，下面為你介紹如何快速開始使用。

運行模型

你可以使用vLLM在8x H100 80GB上運行此模型，使用以下命令：

vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8

若上述方法不適用，你可能需要分別使用--quantization awq_marlin和--dtype float16手動指定量化方式和數據類型。

創建量化模型

創建該模型所使用的腳本如下：

from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }

# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)

model.quantize(
    tokenizer,
    quant_config=quant_config,
    n_parallel_calib_samples=None,
    max_calib_samples=64,
    max_calib_seq_len=1024
)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

✨ 主要特性

模型升級

DeepSeek R1模型進行了小版本升級，當前版本為DeepSeek-R1-0528。在最新更新中，DeepSeek R1通過利用更多計算資源並在後期訓練中引入算法優化機制，顯著提升了推理深度和推理能力。該模型在包括數學、編程和通用邏輯在內的各種基準評估中表現出色，整體性能現已接近O3和Gemini 2.5 Pro等領先模型。

性能提升

與上一版本相比，升級後的模型在處理複雜推理任務方面有顯著改進。例如，在AIME 2025測試中，模型的準確率從之前版本的70%提高到當前版本的87.5%。這一進步源於推理過程中思維深度的增強：在AIME測試集中，之前的模型平均每題使用12K個標記，而新版本平均每題使用23K個標記。

其他優勢

除了改進的推理能力外，此版本還降低了幻覺率，增強了對函數調用的支持，並提供了更好的氛圍編碼體驗。

📦 安裝指南

請訪問DeepSeek-R1倉庫，以獲取有關在本地運行DeepSeek-R1-0528的更多信息。

💻 使用示例

系統提示

在官方DeepSeek網站/應用中，我們使用帶有特定日期的相同系統提示：

該助手為DeepSeek-R1，由深度求索公司創造。
今天是{current date}。

示例：

該助手為DeepSeek-R1，由深度求索公司創造。
今天是2025年5月28日，星期一。

溫度參數

在我們的網頁和應用環境中，溫度參數$T_{model}$設置為0.6。

文件上傳提示

對於文件上傳，請按照以下模板創建提示，其中{file_name}、{file_content}和{question}是參數：

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

網頁搜索提示

對於網頁搜索，{search_results}、{cur_date}和{question}是參數。對於中文查詢，我們使用以下提示：

search_answer_zh_template = \
'''# 以下內容是基於用戶發送的消息的搜索結果:
{search_results}
在我給你的搜索結果中，每個結果都是[webpage X begin]...[webpage X end]格式的，X代表每篇文章的數字索引。請在適當的情況下在句子末尾引用上下文。請按照引用編號[citation:X]的格式在答案中對應部分引用上下文。如果一句話源自多個上下文，請列出所有相關的引用編號，例如[citation:3][citation:5]，切記不要將引用集中在最後返回引用編號，而是在答案對應部分列出。
在回答時，請注意以下幾點：
- 今天是{cur_date}。
- 並非搜索結果的所有內容都與用戶的問題密切相關，你需要結合問題，對搜索結果進行甄別、篩選。
- 對於列舉類的問題（如列舉所有航班信息），儘量將答案控制在10個要點以內，並告訴用戶可以查看搜索來源、獲得完整信息。優先提供信息完整、最相關的列舉項；如非必要，不要主動告訴用戶搜索結果未提供的內容。
- 對於創作類的問題（如寫論文），請務必在正文的段落中引用對應的參考編號，例如[citation:3][citation:5]，不能只在文章末尾引用。你需要解讀並概括用戶的題目要求，選擇合適的格式，充分利用搜索結果並抽取重要信息，生成符合用戶要求、極具思想深度、富有創造力與專業性的答案。你的創作篇幅需要儘可能延長，對於每一個要點的論述要推測用戶的意圖，給出儘可能多角度的回答要點，且務必信息量大、論述詳盡。
- 如果回答很長，請儘量結構化、分段落總結。如果需要分點作答，儘量控制在5個點以內，併合並相關的內容。
- 對於客觀類的問答，如果問題的答案非常簡短，可以適當補充一到兩句相關信息，以豐富內容。
- 你需要根據用戶要求和回答內容選擇合適、美觀的回答格式，確保可讀性強。
- 你的回答應該綜合多個相關網頁來回答，不能重複引用一個網頁。
- 除非用戶要求，否則你回答的語言需要和用戶提問的語言保持一致。
# 用戶消息為：
{question}'''

📚 詳細文檔

評估結果

DeepSeek-R1-0528

對於我們所有的模型，最大生成長度設置為64K標記。對於需要採樣的基準測試，我們使用0.6的溫度、0.95的top-p值，併為每個查詢生成16個響應以估計pass@1。

| 類別 | 基準測試（指標） | DeepSeek R1 | DeepSeek R1 0528 | | ---- | ---- | ---- | ---- | | 通用 | MMLU-Redux (EM) | 92.9 | 93.4 | | 通用 | MMLU-Pro (EM) | 84.0 | 85.0 | | 通用 | GPQA-Diamond (Pass@1) | 71.5 | 81.0 | | 通用 | SimpleQA (Correct) | 30.1 | 27.8 | | 通用 | FRAMES (Acc.) | 82.5 | 83.0 | | 通用 | Humanity's Last Exam (Pass@1) | 8.5 | 17.7 | | 代碼 | LiveCodeBench (2408 - 2505) (Pass@1) | 63.5 | 73.3 | | 代碼 | Codeforces-Div1 (Rating) | 1530 | 1930 | | 代碼 | SWE Verified (Resolved) | 49.2 | 57.6 | | 代碼 | Aider-Polyglot (Acc.) | 53.3 | 71.6 | | 數學 | AIME 2024 (Pass@1) | 79.8 | 91.4 | | 數學 | AIME 2025 (Pass@1) | 70.0 | 87.5 | | 數學 | HMMT 2025 (Pass@1) | 41.7 | 79.4 | | 數學 | CNMO 2024 (Pass@1) | 78.8 | 86.9 | | 工具 | BFCL_v3_MultiTurn (Acc) | - | 37.0 | | 工具 | Tau-Bench (Pass@1) | - | 53.5(Airline)/63.9(Retail) |

注意：我們使用無代理框架來評估模型在SWE-Verified上的性能。我們僅評估HLE測試集中的純文本提示。在Tau-bench評估中，使用GPT - 4.1扮演用戶角色。

DeepSeek-R1-0528-Qwen3-8B

同時，我們將DeepSeek-R1-0528的思維鏈蒸餾到Qwen3 8B Base進行後期訓練，得到了DeepSeek-R1-0528-Qwen3-8B。該模型在AIME 2024上的表現達到了開源模型中的最優水平，比Qwen3 8B高出10.0%，與Qwen3 - 235B - thinking的性能相當。我們認為，DeepSeek-R1-0528的思維鏈對於推理模型的學術研究和專注於小規模模型的工業發展都具有重要意義。

	AIME 24	AIME 25	HMMT Feb 25	GPQA Diamond	LiveCodeBench (2408 - 2505)
Qwen3 - 235B - A22B	85.7	81.5	62.5	71.1	66.5
Qwen3 - 32B	81.4	72.9	-	68.4	-
Qwen3 - 8B	76.0	67.3	-	62.0	-
Phi - 4 - Reasoning - Plus - 14B	81.3	78.0	53.6	69.3	-
Gemini - 2.5 - Flash - Thinking - 0520	82.3	72.0	64.2	82.8	62.3
o3 - mini (medium)	79.6	76.7	53.3	76.8	65.9
DeepSeek - R1 - 0528 - Qwen3 - 8B	86.0	76.3	61.5	61.1	60.5

聊天網站與API平臺

你可以在DeepSeek的官方網站chat.deepseek.com上與DeepSeek-R1進行聊天，並開啟“DeepThink”按鈕。

我們還在DeepSeek平臺platform.deepseek.com上提供與OpenAI兼容的API。

📄 許可證

本代碼倉庫遵循MIT許可證。DeepSeek-R1模型的使用也遵循MIT許可證。DeepSeek-R1系列（包括Base和Chat）支持商業使用和蒸餾。

🔧 技術細節

量化環境與修改

量化操作是在配備960GB內存和800GB交換空間的8x H100 80GB節點上完成的。使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。為了解決此處提到的問題，對modeling_deepseek.py進行了輕微修改。

量化過程

以Unsloth的BF16版本為起點，但在運行AWQ量化腳本之前，從config.json中移除了quantization_config部分。第三次嘗試成功，前兩次嘗試均因運行15個多小時後內存溢出而失敗。最後一次嘗試大約花費了18個小時完成。

📚 引用

@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
      title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning}, 
      author={DeepSeek-AI},
      year={2025},
      eprint={2501.12948},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2501.12948}, 
}