DeepSeek-R1-0528-AWQ開源模型——支持多GPU實現全上下文長度高效運行

首頁

Deepseek R1 0528 AWQ

由cognitivecomputations開發

DeepSeek R1 0528的AWQ量化模型，支持使用vLLM在8塊80GB GPU上以全上下文長度運行。

大型語言模型

Transformers

支持多種語言開源協議:MIT #長上下文推理 #AWQ量化 #多GPU並行

下載量 145

發布時間 : 6/1/2025

模型概述

這是一個經過AWQ量化的DeepSeek-R1-0528模型版本，修復了使用float16時的溢出問題，優化了在vLLM框架下的運行效率。

模型特點

AWQ量化優化

修改了部分模型代碼，修復了使用float16時的溢出問題，提高了模型運行效率。

全上下文長度支持

支持使用vLLM在8塊80GB GPU上以全上下文長度運行該模型。

高性能推理

針對A100 GPU優化了FlashMLA實現，在高上下文推理時比Triton更優。

模型能力

文本生成

長文本處理

多語言支持

使用案例

文本生成

長文本生成

支持長達63K輸入和2K輸出的文本生成任務。

在8x H100/H200配置下達到54.3 TPS

批量處理

支持批量處理32個請求，每個請求4K輸入和256輸出。

在8x H100/H200配置下達到30.1 TPS

🚀 DeepSeek-R1-0528-AWQ

DeepSeek R1 0528的AWQ量化版本。本項目由 Eric Hartford 和 v2ray 完成量化。此次量化計算由 Hot Aisle 慷慨贊助，感謝其對社區的支持！

本量化版本修改了部分模型代碼，以修復使用float16時的溢出問題。

🚀 快速開始

若要使用vLLM和8張80GB GPU來部署該模型，可使用以下命令：

VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

你可以點擊此處下載我為PyTorch 2.6和Python 3.12構建的wheel文件。下面的基準測試就是使用這個wheel文件完成的，它包含 2個PR合併以及一個未優化的適用於A100的FlashMLA（仍然比Triton快），這大大提升了性能。包含A100 FlashMLA的vLLM倉庫可在 LagPixelLOL/vllm@sm80_flashmla 找到，它是 vllm-project/vllm 的一個分支。它使用的A100 FlashMLA基於 LagPixelLOL/FlashMLA@vllm，這是 pzhao-eng/FlashMLA 的一個分支。

💻 使用示例

基礎用法

# 使用vLLM和8張80GB GPU部署模型
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

📚 詳細文檔

每個請求的每秒令牌數（TPS）

GPU \ 批次輸入輸出	B: 1 I: 2 O: 2K	B: 32 I: 4K O: 256	B: 1 I: 63K O: 2K	預填充
8x H100/H200	61.5	30.1	54.3	4732.2
4x H200	58.4	19.8	53.7	2653.1
8x A100 80GB	46.8	12.8	30.4	2442.4
8x L40S	46.3	內存溢出（OOM）	內存溢出（OOM）	688.5

注意事項

⚠️ 重要提示

A100配置使用的是未優化的FlashMLA實現，僅在高上下文推理時比Triton更優，若進行優化，速度會更快。

L40S配置不支持FlashMLA，因此使用了Triton實現，這使得在高上下文情況下速度極慢。而且L40S的顯存不多，無法處理太多上下文，同時它也沒有快速的GPU間互連帶寬，這進一步降低了速度。不建議使用此配置進行服務，因為你必須將上下文限制為 <= 4096，--gpu-memory-utilization 設為0.98，--max-num-seqs 設為4。

除L40S外，基準測試中使用的所有類型的GPU均為SXM外形規格。

在低批次大小下，推理速度會比FP8更好，但在高批次大小下會比FP8更差，這是低比特量化的特性。

vLLM現在支持AWQ的MLA，你可以僅使用8張80GB GPU以完整上下文長度運行此模型。