DeepSeek-R1-0528-AWQオープンソースモデル－多GPUをサポートし、全コンテキスト長での効率的な運用を実現

ホーム

Deepseek R1 0528 AWQ

cognitivecomputationsによって開発

DeepSeek R1 0528のAWQ量子化モデルで、vLLMを使用して8基の80GB GPUでフルコンテキスト長で実行可能です。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #長文脈推論 #AWQ量子化 #マルチGPU並列処理

ダウンロード数 145

リリース時間 : 6/1/2025

モデル概要

これはAWQ量子化されたDeepSeek-R1-0528モデルのバージョンで、float16使用時のオーバーフロー問題を修正し、vLLMフレームワーク下での実行効率を最適化しました。

モデル特徴

AWQ量子化最適化

モデルコードの一部を修正し、float16使用時のオーバーフロー問題を解決し、モデルの実行効率を向上させました。

フルコンテキスト長サポート

vLLMを使用して8基の80GB GPUでフルコンテキスト長でこのモデルを実行できます。

高性能推論

A100 GPU向けにFlashMLA実装を最適化し、長文脈推論時にTritonよりも優れた性能を発揮します。

モデル能力

テキスト生成

長文処理

多言語サポート

使用事例

テキスト生成

長文生成

最大63K入力と2K出力のテキスト生成タスクをサポートします。

8x H100/H200構成で54.3 TPSを達成

バッチ処理

32リクエストのバッチ処理をサポートし、各リクエストは4K入力と256出力です。

8x H100/H200構成で30.1 TPSを達成

🚀 DeepSeek-R1-0528-AWQ

DeepSeek R1 0528のAWQ量子化モデルです。高度なテキスト生成能力を備え、特定のオーバーフロー問題を修正しています。

🚀 クイックスタート

DeepSeek R1 0528のAWQ量子化モデルは、Eric Hartford と v2ray によって量子化されました。この量子化の計算は Hot Aisle によって提供されました。コミュニティへの支援に感謝します！

この量子化では、float16を使用する際のオーバーフロー問題を修正するために、一部のモデルコードを変更しています。

8台の80GB GPUでvLLMを使用してサービングするには、以下のコマンドを使用します。

VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

PyTorch 2.6、Python 3.12用にビルドしたホイールはここからダウンロードできます。以下のベンチマークはこのホイールを使用して行われており、2つのPRマージとA100用の最適化されていないFlashMLA（Tritonよりも速い）が含まれており、パフォーマンスが大幅に向上しています。A100 FlashMLAを含むvLLMリポジトリは LagPixelLOL/vllm@sm80_flashmla で見つけることができ、これは vllm-project/vllm のフォークです。使用されているA100 FlashMLAは LagPixelLOL/FlashMLA@vllm に基づいており、これは pzhao-eng/FlashMLA のフォークです。

💻 使用例

基本的な使用法

# 8台の80GB GPUでvLLMを使用してサービングするコマンド
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-chat --model cognitivecomputations/DeepSeek-V3-0324-AWQ

📚 ドキュメント

TPS Per Request

GPU \ バッチ入力出力	B: 1 I: 2 O: 2K	B: 32 I: 4K O: 256	B: 1 I: 63K O: 2K	プリフィル
8x H100/H200	61.5	30.1	54.3	4732.2
4x H200	58.4	19.8	53.7	2653.1
8x A100 80GB	46.8	12.8	30.4	2442.4
8x L40S	46.3	OOM	OOM	688.5

注意事項

⚠️ 重要提示

A100の設定では、最適化されていないFlashMLA実装を使用しています。これは高コンテキスト推論時にのみTritonよりも優れており、最適化されればさらに速くなります。

L40Sの設定ではFlashMLAをサポートしていないため、Triton実装が使用されます。これにより、高コンテキストでは非常に遅くなります。また、L40SのVRAMはあまり多くないため、コンテキストを大幅に制限する必要があり、GPU間の相互接続帯域も速くないため、さらに遅くなります。この設定でのサービングはお勧めしません。コンテキストを <= 4096、--gpu-memory-utilization を0.98、--max-num-seqs を4に制限する必要があります。

ベンチマークで使用されたすべてのGPUタイプは、L40Sを除いてSXMフォームファクターです。

低バッチサイズでは推論速度はFP8よりも良くなりますが、高バッチサイズではFP8よりも悪くなります。これは低ビット量子化の特性です。

vLLMは現在AWQ用のMLAをサポートしているため、8台の80GB GPUでこのモデルを完全なコンテキスト長で実行できます。