🚀 DeepSeek-R1-0528-AWQ
DeepSeek R1 0528的AWQ量化版本。本項目由 Eric Hartford 和 v2ray 完成量化。此次量化計算由 Hot Aisle 慷慨贊助,感謝其對社區的支持!
本量化版本修改了部分模型代碼,以修復使用float16時的溢出問題。
🚀 快速開始
若要使用vLLM和8張80GB GPU來部署該模型,可使用以下命令:
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
你可以點擊 此處 下載我為PyTorch 2.6和Python 3.12構建的wheel文件。下面的基準測試就是使用這個wheel文件完成的,它包含 2個PR合併 以及一個未優化的適用於A100的FlashMLA(仍然比Triton快),這大大提升了性能。包含A100 FlashMLA的vLLM倉庫可在 LagPixelLOL/vllm@sm80_flashmla 找到,它是 vllm-project/vllm 的一個分支。它使用的A100 FlashMLA基於 LagPixelLOL/FlashMLA@vllm,這是 pzhao-eng/FlashMLA 的一個分支。
💻 使用示例
基礎用法
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
📚 詳細文檔
每個請求的每秒令牌數(TPS)
GPU \ 批次 輸入 輸出 |
B: 1 I: 2 O: 2K |
B: 32 I: 4K O: 256 |
B: 1 I: 63K O: 2K |
預填充 |
8x H100/H200 |
61.5 |
30.1 |
54.3 |
4732.2 |
4x H200 |
58.4 |
19.8 |
53.7 |
2653.1 |
8x A100 80GB |
46.8 |
12.8 |
30.4 |
2442.4 |
8x L40S |
46.3 |
內存溢出(OOM) |
內存溢出(OOM) |
688.5 |
注意事項
⚠️ 重要提示
- A100配置使用的是未優化的FlashMLA實現,僅在高上下文推理時比Triton更優,若進行優化,速度會更快。
- L40S配置不支持FlashMLA,因此使用了Triton實現,這使得在高上下文情況下速度極慢。而且L40S的顯存不多,無法處理太多上下文,同時它也沒有快速的GPU間互連帶寬,這進一步降低了速度。不建議使用此配置進行服務,因為你必須將上下文限制為 <= 4096,
--gpu-memory-utilization
設為0.98,--max-num-seqs
設為4。
- 除L40S外,基準測試中使用的所有類型的GPU均為SXM外形規格。
- 在低批次大小下,推理速度會比FP8更好,但在高批次大小下會比FP8更差,這是低比特量化的特性。
- vLLM現在支持AWQ的MLA,你可以僅使用8張80GB GPU以完整上下文長度運行此模型。
📄 許可證
本項目採用MIT許可證。
📦 模型信息
屬性 |
詳情 |
基礎模型 |
deepseek-ai/DeepSeek-R1-0528 |
任務類型 |
文本生成 |
庫名稱 |
transformers |