🚀 DeepSeek-R1-0528-AWQ
DeepSeek R1 0528のAWQ量子化モデルです。高度なテキスト生成能力を備え、特定のオーバーフロー問題を修正しています。
🚀 クイックスタート
DeepSeek R1 0528のAWQ量子化モデルは、Eric Hartford と v2ray によって量子化されました。この量子化の計算は Hot Aisle によって提供されました。コミュニティへの支援に感謝します!
この量子化では、float16を使用する際のオーバーフロー問題を修正するために、一部のモデルコードを変更しています。
8台の80GB GPUでvLLMを使用してサービングするには、以下のコマンドを使用します。
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
PyTorch 2.6、Python 3.12用にビルドしたホイールは ここ からダウンロードできます。以下のベンチマークはこのホイールを使用して行われており、2つのPRマージ とA100用の最適化されていないFlashMLA(Tritonよりも速い)が含まれており、パフォーマンスが大幅に向上しています。A100 FlashMLAを含むvLLMリポジトリは LagPixelLOL/vllm@sm80_flashmla で見つけることができ、これは vllm-project/vllm のフォークです。使用されているA100 FlashMLAは LagPixelLOL/FlashMLA@vllm に基づいており、これは pzhao-eng/FlashMLA のフォークです。
💻 使用例
基本的な使用法
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ
📚 ドキュメント
TPS Per Request
GPU \ バッチ 入力 出力 |
B: 1 I: 2 O: 2K |
B: 32 I: 4K O: 256 |
B: 1 I: 63K O: 2K |
プリフィル |
8x H100/H200 |
61.5 |
30.1 |
54.3 |
4732.2 |
4x H200 |
58.4 |
19.8 |
53.7 |
2653.1 |
8x A100 80GB |
46.8 |
12.8 |
30.4 |
2442.4 |
8x L40S |
46.3 |
OOM |
OOM |
688.5 |
注意事項
⚠️ 重要提示
- A100の設定では、最適化されていないFlashMLA実装を使用しています。これは高コンテキスト推論時にのみTritonよりも優れており、最適化されればさらに速くなります。
- L40Sの設定ではFlashMLAをサポートしていないため、Triton実装が使用されます。これにより、高コンテキストでは非常に遅くなります。また、L40SのVRAMはあまり多くないため、コンテキストを大幅に制限する必要があり、GPU間の相互接続帯域も速くないため、さらに遅くなります。この設定でのサービングはお勧めしません。コンテキストを <= 4096、
--gpu-memory-utilization
を0.98、--max-num-seqs
を4に制限する必要があります。
- ベンチマークで使用されたすべてのGPUタイプは、L40Sを除いてSXMフォームファクターです。
- 低バッチサイズでは推論速度はFP8よりも良くなりますが、高バッチサイズではFP8よりも悪くなります。これは低ビット量子化の特性です。
- vLLMは現在AWQ用のMLAをサポートしているため、8台の80GB GPUでこのモデルを完全なコンテキスト長で実行できます。
📄 ライセンス
このプロジェクトはMITライセンスの下で提供されています。
属性 |
详情 |
ベースモデル |
deepseek-ai/DeepSeek-R1-0528 |
パイプラインタグ |
テキスト生成 |
ライブラリ名 |
transformers |