🚀 DeepSeek R1 AWQ
DeepSeek R1のAWQです。このモデルは、特定のオーバーフロー問題を修正するためにモデルコードの一部を変更しています。
Eric Hartford と v2ray によって量子化されました。
🚀 クイックスタート
8台の80GB GPUを使用してvLLMでこのモデルをサーブするには、以下のコマンドを使用します。
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-reasoner --model cognitivecomputations/DeepSeek-R1-AWQ
ここ をクリックすると、PyTorch 2.6、Python 3.12用にビルドしたホイールをダウンロードできます。以下のベンチマークはこのホイールを使用して行われており、2つのPRマージ とA100用の未最適化のFlashMLA(Tritonよりも速い)が含まれており、パフォーマンスが大幅に向上しています。A100 FlashMLAを含むvLLMリポジトリは LagPixelLOL/vllm@sm80_flashmla で見つけることができ、これは vllm-project/vllm のフォークです。使用されているA100 FlashMLAは LagPixelLOL/FlashMLA@vllm に基づいており、これは pzhao-eng/FlashMLA のフォークです。
💻 使用例
基本的な使用法
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-reasoner --model cognitivecomputations/DeepSeek-R1-AWQ
📚 ドキュメント
TPS Per Request
GPU \ バッチ 入力 出力 |
B: 1 I: 2 O: 2K |
B: 32 I: 4K O: 256 |
B: 1 I: 63K O: 2K |
プリフィル |
8x H100/H200 |
61.5 |
30.1 |
54.3 |
4732.2 |
4x H200 |
58.4 |
19.8 |
53.7 |
2653.1 |
8x A100 80GB |
46.8 |
12.8 |
30.4 |
2442.4 |
8x L40S |
46.3 |
OOM |
OOM |
688.5 |
注意事項
- A100の設定では未最適化のFlashMLA実装を使用しており、高コンテキスト推論時にのみTritonよりも優れています。最適化されればさらに速くなります。
- L40Sの設定ではFlashMLAをサポートしていないため、Triton実装が使用されます。これにより、高コンテキストでは非常に遅くなります。また、L40SのVRAMはあまり多くないため、コンテキストを大幅に制限する必要があり、GPU間の高速相互接続帯域もないため、さらに遅くなります。この設定でサーブすることはお勧めしません。コンテキストを <= 4096、
--gpu-memory-utilization
を0.98、--max-num-seqs
を4に制限する必要があります。
- ベンチマークで使用されたすべてのGPUタイプは、L40Sを除いてSXMフォームファクターです。
- 低バッチサイズではFP8よりも推論速度が良くなりますが、高バッチサイズではFP8よりも悪くなります。これは低ビット量子化の特性です。
- vLLMは現在、AWQ用のMLAをサポートしています。このモデルを8台の80GB GPUで完全なコンテキスト長で実行することができます。
📄 ライセンス
このプロジェクトはMITライセンスの下で提供されています。
属性 |
详情 |
モデルタイプ |
DeepSeek R1のAWQ |
ベースモデル |
deepseek-ai/DeepSeek-R1 |
パイプラインタグ |
テキスト生成 |
ライブラリ名 |
transformers |