DeepSeek - R1 - AWQオープンソースモデル - float16オーバーフローを解決し、効率的な推論デプロイをサポート

ホーム

Deepseek R1 AWQ

cognitivecomputationsによって開発

DeepSeek R1モデルのAWQ量子化バージョン、float16オーバーフロー問題を最適化し、効率的な推論デプロイをサポート

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:MIT #長文推論 #マルチGPU効率的なデプロイ #中英二言語生成

ダウンロード数 30.46k

リリース時間 : 1/21/2025

モデル概要

DeepSeek-R1ベースモデルのAWQ量子化バージョン、テキスト生成タスクに適し、中英処理をサポート

モデル特徴

効率的な量子化

AWQ量子化技術を採用、モデル性能を維持しながら計算リソース要件を大幅に削減

オーバーフロー修正

モデルコードを修正、float16使用時のオーバーフロー問題を修正

高性能デプロイ

vLLMによる効率的なデプロイをサポート、複数GPU構成下の性能ベンチマークを提供

モデル能力

テキスト生成

中英処理

長文脈推論

使用事例

テキスト生成

コンテンツ作成

様々なタイプのテキストコンテンツを生成

対話システム

インテリジェントな対話エージェントを構築

🚀 DeepSeek R1 AWQ

DeepSeek R1のAWQです。このモデルは、特定のオーバーフロー問題を修正するためにモデルコードの一部を変更しています。

Eric Hartford と v2ray によって量子化されました。

🚀 クイックスタート

8台の80GB GPUを使用してvLLMでこのモデルをサーブするには、以下のコマンドを使用します。

VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-reasoner --model cognitivecomputations/DeepSeek-R1-AWQ

ここをクリックすると、PyTorch 2.6、Python 3.12用にビルドしたホイールをダウンロードできます。以下のベンチマークはこのホイールを使用して行われており、2つのPRマージとA100用の未最適化のFlashMLA（Tritonよりも速い）が含まれており、パフォーマンスが大幅に向上しています。A100 FlashMLAを含むvLLMリポジトリは LagPixelLOL/vllm@sm80_flashmla で見つけることができ、これは vllm-project/vllm のフォークです。使用されているA100 FlashMLAは LagPixelLOL/FlashMLA@vllm に基づいており、これは pzhao-eng/FlashMLA のフォークです。

💻 使用例

基本的な使用法

# 8台の80GB GPUを使用してvLLMでサーブするコマンド
VLLM_USE_V1=0 VLLM_WORKER_MULTIPROC_METHOD=spawn VLLM_MARLIN_USE_ATOMIC_ADD=1 python -m vllm.entrypoints.openai.api_server --host 0.0.0.0 --port 12345 --max-model-len 65536 --max-seq-len-to-capture 65536 --enable-chunked-prefill --enable-prefix-caching --trust-remote-code --tensor-parallel-size 8 --gpu-memory-utilization 0.95 --served-model-name deepseek-reasoner --model cognitivecomputations/DeepSeek-R1-AWQ

📚 ドキュメント

TPS Per Request

GPU \ バッチ入力出力	B: 1 I: 2 O: 2K	B: 32 I: 4K O: 256	B: 1 I: 63K O: 2K	プリフィル
8x H100/H200	61.5	30.1	54.3	4732.2
4x H200	58.4	19.8	53.7	2653.1
8x A100 80GB	46.8	12.8	30.4	2442.4
8x L40S	46.3	OOM	OOM	688.5

注意事項

A100の設定では未最適化のFlashMLA実装を使用しており、高コンテキスト推論時にのみTritonよりも優れています。最適化されればさらに速くなります。
L40Sの設定ではFlashMLAをサポートしていないため、Triton実装が使用されます。これにより、高コンテキストでは非常に遅くなります。また、L40SのVRAMはあまり多くないため、コンテキストを大幅に制限する必要があり、GPU間の高速相互接続帯域もないため、さらに遅くなります。この設定でサーブすることはお勧めしません。コンテキストを <= 4096、--gpu-memory-utilization を0.98、--max-num-seqs を4に制限する必要があります。
ベンチマークで使用されたすべてのGPUタイプは、L40Sを除いてSXMフォームファクターです。
低バッチサイズではFP8よりも推論速度が良くなりますが、高バッチサイズではFP8よりも悪くなります。これは低ビット量子化の特性です。
vLLMは現在、AWQ用のMLAをサポートしています。このモデルを8台の80GB GPUで完全なコンテキスト長で実行することができます。