DeepSeek-R1-quantized.w4a16開源模型 - 降低50%內存空間需求且保留原性能

首頁

Deepseek R1 Quantized.w4a16

由RedHatAI開發

DeepSeek-R1的INT4權重量化版本，通過減少權重位數降低GPU內存和磁盤空間需求約50%，保持原始模型性能。

大型語言模型

Safetensors

開源協議:MIT #INT4量化 #高效推理 #大語言模型

下載量 119

發布時間 : 4/17/2025

模型概述

該模型是基於DeepSeek-R1的權重量化版本，將權重從8位減少到4位，顯著降低了資源需求，同時保持了原始模型的性能。適用於需要高效部署的大型語言模型應用場景。

模型特點

INT4權重量化

將權重從8位減少到4位，降低GPU內存和磁盤空間需求約50%

高效部署

支持使用vLLM後端高效部署，適合大規模生產環境

性能保留

在量化後仍保持接近原始模型的性能表現

模型能力

文本生成

語言理解

推理任務處理

使用案例

教育

數學問題解答

解答覆雜數學問題

在MATH-500測試中達到97.08%的準確率

專業測試

AIME測試

處理美國數學邀請賽級別的問題

在AIME 2024測試中達到77.00%的準確率

通用知識問答

MMLU測試

處理多學科多項選擇題

在MMLU測試中達到86.99%的準確率

🚀 DeepSeek-R1-quantized.w4a16

本項目是經過量化處理的 DeepSeek-R1 模型，通過將權重量化為 INT4 數據類型，有效減少了 GPU 內存和磁盤空間的需求。同時，該模型可以藉助 vLLM 後端進行高效部署。

🚀 快速開始

模型部署示例

可以使用 vLLM 後端高效部署此模型，示例代碼如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/DeepSeek-R1-quantized.w4a16"
number_gpus = 8

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "Give me a short introduction to large language model."

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務，更多詳細信息請參閱文檔。

✨ 主要特性

模型概述

模型架構：DeepseekV3ForCausalLM
- 輸入：文本
- 輸出：文本
模型優化：
- 激活量化：無
- 權重量化：INT4
發佈日期：2025 年 4 月 15 日
版本：1.0
模型開發者：Red Hat (Neural Magic)

模型優化說明

此模型是通過將 DeepSeek-R1 的權重量化為 INT4 數據類型得到的。這種優化將表示權重的位數從 8 位減少到 4 位，從而將 GPU 內存需求降低了約 50%，同時磁盤空間需求也減少了約 50%。

💻 使用示例

基礎用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/DeepSeek-R1-quantized.w4a16"
number_gpus = 8

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "Give me a short introduction to large language model."

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

📚 詳細文檔

評估信息

該模型在 OpenLLM 排行榜任務（v1）上通過 lm-evaluation-harness 進行評估，在流行的推理任務（AIME 2024、MATH-500、GPQA-Diamond）上通過 LightEval 進行評估。對於推理評估，我們基於 10 次不同種子的運行來估計 pass@1。

評估詳情

OpenLLM v1

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/DeepSeek-R1-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=8,gpu_memory_utilization=0.8,enable_chunked_prefill=True,trust_remote_code=True \
  --tasks openllm \
  --batch_size auto

推理基準測試

export MODEL_ARGS="pretrained=RedHatAI/DeepSeek-R1-quantized.w4a16,dtype=bfloat16,max_model_length=38768,gpu_memory_utilization=0.8,tensor_parallel_size=8,add_special_tokens=false,generation_parameters={\"max_new_tokens\":32768,\"temperature\":0.6,\"top_p\":0.95,\"seed\":42}"
export VLLM_WORKER_MULTIPROC_METHOD=spawn
lighteval vllm $MODEL_ARGS "custom|aime24|0|0,custom|math_500|0|0,custom|gpqa:diamond|0|0" \
    --custom-tasks src/open_r1/evaluate.py \
    --use-chat-template \
    --output-dir $OUTPUT_DIR

準確率

	恢復率 (%)	deepseek/DeepSeek-R1	RedHatAI/DeepSeek-R1-quantized.w4a16 (本模型)
ARC-Challenge 25-shot	100.00	72.53	72.53
GSM8k 5-shot	99.76	95.91	95.68
HellaSwag 10-shot	100.07	89.30	89.36
MMLU 5-shot	99.74	87.22	86.99
TruthfulQA 0-shot	100.83	59.28	59.77
WinoGrande 5-shot	101.65	82.00	83.35
OpenLLM v1 平均得分	100.30	81.04	81.28
AIME 2024 pass@1	98.30	78.33	77.00
MATH-500 pass@1	99.84	97.24	97.08
GPQA Diamond pass@1	98.01	73.38	71.92
推理平均得分	98.81	82.99	82.00