DeepSeek - R1 - quantized.w4a16オープンソースモデル - メモリ空間の必要量を50%削減し、元の性能を維持

ホーム

Deepseek R1 Quantized.w4a16

RedHatAIによって開発

DeepSeek-R1のINT4重み量子化バージョンで、重みのビット数を減らすことでGPUメモリとディスクスペースの要件を約50%削減し、元のモデルの性能を維持しています。

大規模言語モデル

Safetensors

オープンソースライセンス:MIT #INT4量子化 #効率的な推論 #大規模言語モデル

ダウンロード数 119

リリース時間 : 4/17/2025

モデル概要

このモデルはDeepSeek-R1の重み量子化バージョンで、重みを8ビットから4ビットに削減し、リソース要件を大幅に削減しながら元のモデルの性能を維持しています。効率的なデプロイメントが必要な大規模言語モデルアプリケーションに適しています。

モデル特徴

INT4重み量子化

重みを8ビットから4ビットに削減し、GPUメモリとディスクスペースの要件を約50%削減

効率的なデプロイメント

vLLMバックエンドを使用した効率的なデプロイメントをサポートし、大規模な本番環境に適しています

性能維持

量子化後も元のモデルに近い性能を維持

モデル能力

テキスト生成

言語理解

推論タスク処理

使用事例

教育

数学問題解答

複雑な数学問題を解答

MATH-500テストで97.08%の精度を達成

専門テスト

AIMEテスト

アメリカ数学招待試合レベルの問題を処理

AIME 2024テストで77.00%の精度を達成

一般知識QA

MMLUテスト

多学科の多肢選択問題を処理

MMLUテストで86.99%の精度を達成

🚀 DeepSeek-R1-quantized.w4a16

このモデルは、DeepSeek-R1 の重みをINT4データ型に量子化することで得られたもので、GPUメモリとディスクサイズの要件を約50%削減します。

🚀 クイックスタート

このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下に例を示します。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/DeepSeek-R1-quantized.w4a16"
number_gpus = 8

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "Give me a short introduction to large language model."

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービングもサポートしています。詳細はドキュメントを参照してください。

✨ 主な機能

モデル概要

モデルアーキテクチャ: DeepseekV3ForCausalLM
- 入力: テキスト
- 出力: テキスト
モデル最適化:
- 活性化量子化: なし
- 重み量子化: INT4
リリース日: 2025年4月15日
バージョン: 1.0
モデル開発者: Red Hat (Neural Magic)

モデル最適化

このモデルは、DeepSeek-R1 の重みをINT4データ型に量子化することで得られました。この最適化により、重みを表すために使用されるビット数が8から4に減少し、GPUメモリ要件が約50%削減されます。また、重み量子化によりディスクサイズ要件も約50%削減されます。

📚 ドキュメント

評価

このモデルは、lm-evaluation-harness を介してOpenLLMリーダーボードタスク (v1) で評価され、LightEval を介して人気の推論タスク (AIME 2024、MATH-500、GPQA-Diamond) で評価されました。推論評価では、異なるシードを使用した10回の実行に基づいてpass@1を推定します。

評価の詳細

OpenLLM v1

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/DeepSeek-R1-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True \
  --tasks openllm \
  --batch_size auto

推論ベンチマーク

export MODEL_ARGS="pretrained=RedHatAI/DeepSeek-R1-quantized.w4a16,dtype=bfloat16,max_model_length=38768,gpu_memory_utilization=0.8,tensor_parallel_size=8,add_special_tokens=false,generation_parameters={\"max_new_tokens\":32768,\"temperature\":0.6,\"top_p\":0.95,\"seed\":42}"
export VLLM_WORKER_MULTIPROC_METHOD=spawn
lighteval vllm $MODEL_ARGS "custom|aime24|0|0,custom|math_500|0|0,custom|gpqa:diamond|0|0" \
    --custom-tasks src/open_r1/evaluate.py \
    --use-chat-template \
    --output-dir $OUTPUT_DIR

精度

	回復率 (%)	deepseek/DeepSeek-R1	RedHatAI/DeepSeek-R1-quantized.w4a16 (このモデル)
ARC-Challenge 25-shot	100.00	72.53	72.53
GSM8k 5-shot	99.76	95.91	95.68
HellaSwag 10-shot	100.07	89.30	89.36
MMLU 5-shot	99.74	87.22	86.99
TruthfulQA 0-shot	100.83	59.28	59.77
WinoGrande 5-shot	101.65	82.00	83.35
OpenLLM v1 平均スコア	100.30	81.04	81.28
AIME 2024 pass@1	98.30	78.33	77.00
MATH-500 pass@1	99.84	97.24	97.08
GPQA Diamond pass@1	98.01	73.38	71.92
推論平均スコア	98.81	82.99	82.00