DeepSeek-R1-Distill-Llama-70B-FP8-dynamicオープンソースモデル - 推論性能を最適化し、処理をより効率的にする

ホーム

Deepseek R1 Distill Llama 70B FP8 Dynamic

RedHatAIによって開発

DeepSeek-R1-Distill-Llama-70BのFP8量子化バージョン。重みと活性化のビット数を減らすことで推論性能を最適化します。

大規模言語モデル

Transformers

オープンソースライセンス:MIT #FP8量子化 #多GPU推論 #効率的なデプロイ

ダウンロード数 45.77k

リリース時間 : 2/1/2025

モデル概要

これはDeepSeek-R1-Distill-Llama-70Bの量子化バージョンで、重みと活性化をFP8データ型に量子化することで、ディスク容量とGPUメモリの要件を削減し、同時に推論性能を大幅に向上させます。

モデル特徴

FP8量子化

重みと活性化の両方をFP8データ型で量子化し、ディスク容量とGPUメモリの要件を50%削減します。

効率的な推論

単一流デプロイで最大1.4倍の高速化、多流非同期デプロイで最大3.0倍の高速化が実現されます。

vLLM互換

vLLMバックエンドを使用した効率的なデプロイをサポートし、OpenAI互換のサービスインターフェースを提供します。

モデル能力

テキスト生成

命令追従

多輪対話

コード補完

ドキュメント生成

RAGアプリケーション

使用事例

対話システム

多輪対話

複雑な多輪対話シナリオをサポートします。

512/256トークン設定で、A100x4ハードウェア上で8.90 QPSに達します。

コード生成

コード補完

プログラミング言語のコード補完機能をサポートします。

HumanEvalテストでpass@1が81.00%に達します。

情報検索

RAGアプリケーション

検索強化生成に基づく質問応答システムをサポートします。

1024/128トークン設定で、A100x4ハードウェア上で7.42 QPSに達します。

🚀 DeepSeek-R1-Distill-Llama-70B-FP8-dynamic

これは DeepSeek-R1-Distill-Llama-70B の量子化バージョンです。重みと活性化を FP8 データ型に量子化することで、ディスク容量と GPU メモリの要件を削減し、推論性能を大幅に向上させています。

🚀 クイックスタート

vLLM を使用したモデルのデプロイ

このモデルは vLLM バックエンドを使用して効率的にデプロイできます。以下にサンプルコードを示します。

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

number_gpus = 2
model_name = "neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256, stop_token_ids=[tokenizer.eos_token_id])
llm = LLM(model=model_name, tensor_parallel_size=number_gpus, trust_remote_code=True)

messages_list = [
    [{"role": "user", "content": "Who are you? Please respond in pirate speak!"}],
]

prompt_token_ids = [tokenizer.apply_chat_template(messages, add_generation_prompt=True) for messages in messages_list]

outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

vLLM は OpenAI 互換のサービスもサポートしています。詳細についてはドキュメントを参照してください。

✨ 主な機能

モデルアーキテクチャ：LlamaForCausalLM。入力と出力はテキストです。
モデル最適化：
- 重みの量子化：FP8
- 活性化の量子化：FP8
リリース日：2025 年 2 月 1 日
バージョン：1.0
モデル開発者：Neural Magic

DeepSeek-R1-Distill-Llama-70B の重みと活性化を FP8 データ型に量子化することで、各パラメータのビット数を 16 ビットから 8 ビットに削減し、ディスク容量と GPU メモリの要件を約 50% 削減しています。量子化は Transformer ブロック内の線形演算子の重みと活性化にのみ適用され、重みは対称的なチャネルごとのスキームで、活性化は対称的なトークンごとのスキームで行われます。量子化には LLM Compressor が使用されています。

📦 インストール

ドキュメントで具体的なインストール手順は記載されていません。vLLM と関連する依存関係の公式ドキュメントを参照してインストールしてください。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

number_gpus = 2
model_name = "neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sampling_params = SamplingParams(temperature=0.6, max_tokens=256, stop_token_ids=[tokenizer.eos_token_id])
llm = LLM(model=model_name, tensor_parallel_size=number_gpus, trust_remote_code=True)

messages_list = [
    [{"role": "user", "content": "Who are you? Please respond in pirate speak!"}],
]

prompt_token_ids = [tokenizer.apply_chat_template(messages, add_generation_prompt=True) for messages in messages_list]

outputs = llm.generate(prompt_token_ids=prompt_token_ids, sampling_params=sampling_params)

generated_text = [output.outputs[0].text for output in outputs]
print(generated_text)

モデル作成の例

このモデルは llm-compressor を使用して作成されます。以下のコードスニペットを実行してください。

from transformers import AutoModelForCausalLM, AutoTokenizer
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from llmcompressor.transformers.compression.helpers import calculate_offload_device_map
import os

# Load model
model_stub = "deepseek-ai/DeepSeek-R1-Distill-Llama-70B"
model_name = model_stub.split("/")[-1]

device_map = calculate_offload_device_map(
    model_stub,
    reserve_for_hessians=True,
    num_gpus=2,
    torch_dtype="auto",
)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map=device_map,
    torch_dtype="auto",
)

tokenizer = AutoTokenizer.from_pretrained(model_stub)

# Configure the quantization algorithm and scheme
recipe = QuantizationModifier(
    targets="Linear",
    scheme="FP8_DYNAMIC",
    ignore=["lm_head"],
)

# Apply quantization
oneshot(
    model=model,
    recipe=recipe,
)

# Save to disk in compressed-tensors format
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"Model and tokenizer saved to: {save_path}")

📚 ドキュメント

評価

このモデルは OpenLLM ランキング V1 と V2 で評価されています。以下のコマンドを使用します。

OpenLLM ランキング V1：

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=2,enable_chunked_prefill=True \
  --tasks openllm \
  --write_out \
  --batch_size auto \
  --output_path output_dir \
  --show_config

OpenLLM ランキング V2：

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic",dtype=auto,max_model_len=4096,tensor_parallel_size=2,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --write_out \
  --batch_size auto \
  --output_path output_dir \
  --show_config

正解率

カテゴリ	指標	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic	回復率
推論	AIME 2024 (pass@1)	67.83	69.17	101.98%
	MATH-500 (pass@1)	95.29	95.14	99.84%
	GPQA Diamond (pass@1)	65.57	65.15	99.36%
	平均スコア	76.23	76.49	100.34%
OpenLLM V1	ARC-Challenge (Acc-Norm, 25-shot)	63.65	63.05	99.1%
	GSM8K (Strict-Match, 5-shot)	93.03	93.03	100.0%
	HellaSwag (Acc-Norm, 10-shot)	84.85	84.71	99.8%
	MMLU (Acc, 5-shot)	78.04	77.45	99.3%
	TruthfulQA (MC2, 0-shot)	56.67	56.62	99.9%
	Winogrande (Acc, 5-shot)	78.22	78.45	100.3%
	平均スコア	75.74	75.55	99.8%
OpenLLM V2	IFEval (Inst Level Strict Acc, 0-shot)	42.45	42.11	99.2%
	BBH (Acc-Norm, 3-shot)	21.26	19.77	93.0%
	Math-Hard (Exact-Match, 4-shot)	0.00	0.00	---
	GPQA (Acc-Norm, 0-shot)	9.51	6.97	---
	MUSR (Acc-Norm, 0-shot)	14.87	14.60	---
	MMLU-Pro (Acc, 5-shot)	4.27	5.76	---
	平均スコア	15.39	14.87	96.6%
コーディング	HumanEval (pass@1)	81.10	81.00	99.9%
	HumanEval (pass@10)	87.60	88.60	101.1%
	HumanEval+ (pass@10)	75.20	75.50	100.4%
	HumanEval+ (pass@10)	83.10	84.30	101.4%

推論性能

このモデルは、単一ストリームのデプロイで最大 1.4 倍、マルチストリーム非同期デプロイで最大 3.0 倍の高速化を実現できます。これはハードウェアと使用シナリオによって異なります。以下のパフォーマンスベンチマークは vLLM バージョン 0.7.2 と GuideLLM を使用して行われています。

ベンチマークコマンド

guidellm --model neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic --target "http://localhost:8000/v1" --data-type emulated --data "prompt_tokens=<prompt_tokens>,generated_tokens=<generated_tokens>" --max seconds 360 --backend aiohttp_server

単一ストリームのパフォーマンス（vLLM バージョン 0.7.2 で測定）

GPU 種類	GPU 数	モデル	平均コスト削減	命令追従 256 / 128 遅延 (s)	命令追従 256 / 128 QPD	マルチターン対話 512 / 256 遅延 (s)	マルチターン対話 512 / 256 QPD	ドキュメント文字列生成 768 / 128 遅延 (s)	ドキュメント文字列生成 768 / 128 QPD	RAG 1024 / 128 遅延 (s)	RAG 1024 / 128 QPD	コード補完 256 / 1024 遅延 (s)	コード補完 256 / 1024 QPD	コード修正 1024 / 1024 遅延 (s)	コード修正 1024 / 1024 QPD	大規模要約 4096 / 512 遅延 (s)	大規模要約 4096 / 512 QPD	大規模 RAG 10240 / 1536 遅延 (s)	大規模 RAG 10240 / 1536 QPD
A6000	4	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	7.4	152	14.9	76	7.5	149	7.7	146	57.2	20	58.9	19	31.9	35	98.4	11
	2	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8	1.93	7.7	292	15.2	148	7.8	287	8.0	282	60.7	37	60.2	37	32.3	70	104.0	22
	2	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	2.83	4.9	457	10.0	225	5.5	411	5.8	389	38.9	58	39.2	57	23.7	95	76.6	29
A100	2	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	6.4	157	12.8	79	6.6	153	6.7	151	50.4	20	50.8	20	27.0	37	85.4	12
	2	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8	1.48	4.1	245	8.2	123	4.2	238	4.3	235	32.4	31	32.8	31	17.6	57	90.8	11
	1	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	2.69	4.6	440	9.2	220	4.9	407	5.2	389	35.3	57	36.3	55	21.2	95	68.1	30
H100	2	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	3.8	149	7.6	74	3.9	146	3.9	144	30.0	19	30.4	19	16.1	35	56.5	10
	2	neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic	1.39	2.7	210	5.3	106	2.7	207	2.8	203	21.1	27	21.4	26	11.5	49	47.2	12
	1	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	1.83	4.0	277	7.9	138	4.1	266	4.2	262	31.2	35	31.8	34	17.8	61	61.4	18

使用例設定ファイル：プロンプトトークン / 生成トークン

**QPD：1 ドルあたりのクエリ数。Lambda Labs のオンデマンドコスト（2025 年 2 月 18 日の観測値）に基づいています。

マルチストリーム非同期パフォーマンス（vLLM バージョン 0.7.2 で測定）

ハードウェア	モデル	平均コスト削減	命令追従 256 / 128 最大スループット (QPS)	命令追従 256 / 128 QPD	マルチターン対話 512 / 256 最大スループット (QPS)	マルチターン対話 512 / 256 QPD	ドキュメント文字列生成 768 / 128 最大スループット (QPS)	ドキュメント文字列生成 768 / 128 QPD	RAG 1024 / 128 最大スループット (QPS)	RAG 1024 / 128 QPD	コード補完 256 / 1024 最大スループット (QPS)	コード補完 256 / 1024 QPD	コード修正 1024 / 1024 最大スループット (QPS)	コード修正 1024 / 1024 QPD	大規模要約 4096 / 512 最大スループット (QPS)	大規模要約 4096 / 512 QPD	大規模 RAG 10240 / 1536 最大スループット (QPS)	大規模 RAG 10240 / 1536 QPD
A6000x4	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	3.65	4102	1.56	1757	1.90	2143	1.48	1665	0.44	493	0.34	380	0.22	245	0.05	55
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8	1.76	5.89	6625	2.94	3307	3.36	3775	2.59	2916	0.74	828	0.53	601	0.35	398	0.11	120
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	1.48	4.91	5528	2.01	2259	2.03	2280	1.12	1255	1.11	1251	0.76	852	0.24	267	0.07	81
A100x4	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	10.41	5235	5.10	2565	5.50	2766	4.36	2193	1.49	751	1.21	607	0.89	447	0.19	98
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w8a8	1.63	18.11	9103	8.90	4477	9.41	4730	7.42	3731	2.44	1229	1.89	948	1.26	631	0.30	149
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	1.12	12.63	6353	5.32	2673	5.58	2804	4.27	2144	2.30	1158	1.45	729	0.76	381	0.22	110
H100x4	deepseek-ai/DeepSeek-R1-Distill-Llama-70B	---	14.04	2113	10.85	1634	12.25	1844	9.93	1494	3.68	554	2.82	425	1.81	273	0.35	52
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-FP8-dynamic	1.78	41.44	6236	19.64	2956	21.03	3166	16.72	2516	6.01	904	4.46	672	2.55	383	0.49	74
	neuralmagic/DeepSeek-R1-Distill-Llama-70B-quantized.w4a16	1.45	36.61	5509	15.12	2275	16.24	2443	13.22	1990	5.48	825	3.01	453	2.07	312	0.43	64