模型概述
模型特點
模型能力
使用案例
🚀 DeepSeek-R1-0528-AWQ 671B
這是DeepSeek-R1-0528 671B模型的4位AWQ量化版本,適合搭配vLLM和SGLang在8xA100/8xH20/8xH100等GPU節點上使用。
你可以使用vLLM在8x H100 80GB上運行此模型:
vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8
如果上述方法不適用,你可能需要分別使用--quantization awq_marlin
和--dtype float16
手動指定量化方式和數據類型。
創建該模型所使用的腳本如下:
from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model.quantize(
tokenizer,
quant_config=quant_config,
n_parallel_calib_samples=None,
max_calib_samples=64,
max_calib_seq_len=1024
)
# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print(f'Model is quantized and saved at "{quant_path}"')
我使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。為了解決此處提到的問題,我對modeling_deepseek.py
進行了輕微修改。
量化操作是在配備960GB內存和800GB交換空間的8x H100 80GB節點上完成的。我以Unsloth的BF16版本為起點,但在運行AWQ量化腳本之前,我從config.json
中移除了quantization_config
部分。第三次嘗試成功,前兩次嘗試均因運行15個多小時後內存溢出而失敗。最後一次嘗試大約花費了18個小時完成。
我打算進行一些評估,以衡量量化對下游性能的影響,但目前尚未完全確定。
這是完整的671B模型,如果你無法使用運行該模型所需的高端硬件,可以考慮運行基於Qwen3 8B的蒸餾版本。
🚀 快速開始
本項目是DeepSeek-R1-0528 671B模型的4位AWQ量化版本,可搭配特定GPU節點和工具使用,下面為你介紹如何快速開始使用。
運行模型
你可以使用vLLM在8x H100 80GB上運行此模型,使用以下命令:
vllm serve adamo1139/DeepSeek-R1-0528-AWQ --tensor-parallel 8
若上述方法不適用,你可能需要分別使用--quantization awq_marlin
和--dtype float16
手動指定量化方式和數據類型。
創建量化模型
創建該模型所使用的腳本如下:
from datasets import load_dataset
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model_path = '/home/ubuntu/models/DeepSeek-R1-0528-BF16'
quant_path = '/home/ubuntu/models/DeepSeek-R1-0528-AWQ'
quant_config = { "zero_point": True, "q_group_size": 64, "w_bit": 4, "version": "GEMM" }
# Load model
model = AutoAWQForCausalLM.from_pretrained(model_path, trust_remote_code=True, device_map=None)
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model.quantize(
tokenizer,
quant_config=quant_config,
n_parallel_calib_samples=None,
max_calib_samples=64,
max_calib_seq_len=1024
)
# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)
print(f'Model is quantized and saved at "{quant_path}"')
✨ 主要特性
模型升級
DeepSeek R1模型進行了小版本升級,當前版本為DeepSeek-R1-0528。在最新更新中,DeepSeek R1通過利用更多計算資源並在後期訓練中引入算法優化機制,顯著提升了推理深度和推理能力。該模型在包括數學、編程和通用邏輯在內的各種基準評估中表現出色,整體性能現已接近O3和Gemini 2.5 Pro等領先模型。
性能提升
與上一版本相比,升級後的模型在處理複雜推理任務方面有顯著改進。例如,在AIME 2025測試中,模型的準確率從之前版本的70%提高到當前版本的87.5%。這一進步源於推理過程中思維深度的增強:在AIME測試集中,之前的模型平均每題使用12K個標記,而新版本平均每題使用23K個標記。
其他優勢
除了改進的推理能力外,此版本還降低了幻覺率,增強了對函數調用的支持,並提供了更好的氛圍編碼體驗。
📦 安裝指南
請訪問DeepSeek-R1倉庫,以獲取有關在本地運行DeepSeek-R1-0528的更多信息。
💻 使用示例
系統提示
在官方DeepSeek網站/應用中,我們使用帶有特定日期的相同系統提示:
該助手為DeepSeek-R1,由深度求索公司創造。
今天是{current date}。
示例:
該助手為DeepSeek-R1,由深度求索公司創造。
今天是2025年5月28日,星期一。
溫度參數
在我們的網頁和應用環境中,溫度參數$T_{model}$設置為0.6。
文件上傳提示
對於文件上傳,請按照以下模板創建提示,其中{file_name}、{file_content}和{question}是參數:
file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""
網頁搜索提示
對於網頁搜索,{search_results}、{cur_date}和{question}是參數。對於中文查詢,我們使用以下提示:
search_answer_zh_template = \
'''# 以下內容是基於用戶發送的消息的搜索結果:
{search_results}
在我給你的搜索結果中,每個結果都是[webpage X begin]...[webpage X end]格式的,X代表每篇文章的數字索引。請在適當的情況下在句子末尾引用上下文。請按照引用編號[citation:X]的格式在答案中對應部分引用上下文。如果一句話源自多個上下文,請列出所有相關的引用編號,例如[citation:3][citation:5],切記不要將引用集中在最後返回引用編號,而是在答案對應部分列出。
在回答時,請注意以下幾點:
- 今天是{cur_date}。
- 並非搜索結果的所有內容都與用戶的問題密切相關,你需要結合問題,對搜索結果進行甄別、篩選。
- 對於列舉類的問題(如列舉所有航班信息),儘量將答案控制在10個要點以內,並告訴用戶可以查看搜索來源、獲得完整信息。優先提供信息完整、最相關的列舉項;如非必要,不要主動告訴用戶搜索結果未提供的內容。
- 對於創作類的問題(如寫論文),請務必在正文的段落中引用對應的參考編號,例如[citation:3][citation:5],不能只在文章末尾引用。你需要解讀並概括用戶的題目要求,選擇合適的格式,充分利用搜索結果並抽取重要信息,生成符合用戶要求、極具思想深度、富有創造力與專業性的答案。你的創作篇幅需要儘可能延長,對於每一個要點的論述要推測用戶的意圖,給出儘可能多角度的回答要點,且務必信息量大、論述詳盡。
- 如果回答很長,請儘量結構化、分段落總結。如果需要分點作答,儘量控制在5個點以內,併合並相關的內容。
- 對於客觀類的問答,如果問題的答案非常簡短,可以適當補充一到兩句相關信息,以豐富內容。
- 你需要根據用戶要求和回答內容選擇合適、美觀的回答格式,確保可讀性強。
- 你的回答應該綜合多個相關網頁來回答,不能重複引用一個網頁。
- 除非用戶要求,否則你回答的語言需要和用戶提問的語言保持一致。
# 用戶消息為:
{question}'''
📚 詳細文檔
評估結果
DeepSeek-R1-0528
對於我們所有的模型,最大生成長度設置為64K標記。對於需要採樣的基準測試,我們使用0.6的溫度、0.95的top-p值,併為每個查詢生成16個響應以估計pass@1。
DeepSeek-R1-0528-Qwen3-8B
同時,我們將DeepSeek-R1-0528的思維鏈蒸餾到Qwen3 8B Base進行後期訓練,得到了DeepSeek-R1-0528-Qwen3-8B。該模型在AIME 2024上的表現達到了開源模型中的最優水平,比Qwen3 8B高出10.0%,與Qwen3 - 235B - thinking的性能相當。我們認為,DeepSeek-R1-0528的思維鏈對於推理模型的學術研究和專注於小規模模型的工業發展都具有重要意義。
AIME 24 | AIME 25 | HMMT Feb 25 | GPQA Diamond | LiveCodeBench (2408 - 2505) | |
---|---|---|---|---|---|
Qwen3 - 235B - A22B | 85.7 | 81.5 | 62.5 | 71.1 | 66.5 |
Qwen3 - 32B | 81.4 | 72.9 | - | 68.4 | - |
Qwen3 - 8B | 76.0 | 67.3 | - | 62.0 | - |
Phi - 4 - Reasoning - Plus - 14B | 81.3 | 78.0 | 53.6 | 69.3 | - |
Gemini - 2.5 - Flash - Thinking - 0520 | 82.3 | 72.0 | 64.2 | 82.8 | 62.3 |
o3 - mini (medium) | 79.6 | 76.7 | 53.3 | 76.8 | 65.9 |
DeepSeek - R1 - 0528 - Qwen3 - 8B | 86.0 | 76.3 | 61.5 | 61.1 | 60.5 |
聊天網站與API平臺
你可以在DeepSeek的官方網站chat.deepseek.com上與DeepSeek-R1進行聊天,並開啟“DeepThink”按鈕。
我們還在DeepSeek平臺platform.deepseek.com上提供與OpenAI兼容的API。
📄 許可證
本代碼倉庫遵循MIT許可證。DeepSeek-R1模型的使用也遵循MIT許可證。DeepSeek-R1系列(包括Base和Chat)支持商業使用和蒸餾。
🔧 技術細節
量化環境與修改
量化操作是在配備960GB內存和800GB交換空間的8x H100 80GB節點上完成的。使用了AutoAWQ 0.2.8、transformers 4.48.0和torch 2.6.0。為了解決此處提到的問題,對modeling_deepseek.py
進行了輕微修改。
量化過程
以Unsloth的BF16版本為起點,但在運行AWQ量化腳本之前,從config.json
中移除了quantization_config
部分。第三次嘗試成功,前兩次嘗試均因運行15個多小時後內存溢出而失敗。最後一次嘗試大約花費了18個小時完成。
📚 引用
@misc{deepseekai2025deepseekr1incentivizingreasoningcapability,
title={DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning},
author={DeepSeek-AI},
year={2025},
eprint={2501.12948},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2501.12948},
}
📞 聯繫我們
如果您有任何問題,請提出問題或通過service@deepseek.com與我們聯繫。



