DeepSeek-R1-0528量化模型开源 - 减少GPU内存与磁盘空间占用

首页

Deepseek R1 0528 Quantized.w4a16

由 RedHatAI 开发

经过量化处理的DeepSeek-R1-0528模型，通过将权重量化为INT4数据类型，显著降低了GPU内存和磁盘空间的需求。

大型语言模型

Safetensors

开源协议:MIT #INT4量化推理 #低显存需求 #数学推理优化

下载量 126

发布时间 : 5/30/2025

模型简介

该模型是基于DeepSeek-R1-0528的量化版本，主要用于文本生成任务，通过权重量化优化了资源使用效率。

模型特点

INT4权重量化

将权重从8位减少到4位，显著降低GPU内存和磁盘空间需求约50%。

高效部署

支持使用vLLM后端高效部署，优化推理速度。

高性能推理

在多个推理任务上表现接近原始模型，准确率损失极小。

模型能力

文本生成

高效推理

使用案例

学术研究

数学问题求解

用于解决复杂的数学问题，如MATH-500数据集中的题目。

pass@1准确率97.40%

通用知识问答

回答GPQA Diamond数据集中的高难度问题。

pass@1准确率80.61%

教育

AIME竞赛题解答

生成美国数学邀请赛(AIME)题目的解答。

pass@1准确率87.33%

🚀 DeepSeek-R1-0528量化模型（w4a16）

本项目提供了经过量化处理的DeepSeek-R1-0528模型，通过将权重量化为INT4数据类型，显著降低了GPU内存和磁盘空间的需求。同时，介绍了该模型的架构、优化方式、部署方法以及评估结果。

🚀 快速开始

本模型可以使用vLLM后端高效部署，示例代码如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/DeepSeek-R1-0528-quantized.w4a16"
number_gpus = 8
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=256)
tokenizer = AutoTokenizer.from_pretrained(model_id)
prompt = "Give me a short introduction to large language model."
llm = LLM(model=model_id, tensor_parallel_size=number_gpus)
outputs = llm.generate(prompt, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM还支持与OpenAI兼容的服务，更多详情请参阅文档。

✨ 主要特性

模型架构：采用DeepseekV3ForCausalLM架构，输入和输出均为文本。
模型优化：对DeepSeek-R1-0528模型的权重进行量化处理，将其转换为INT4数据类型。这种优化将表示权重的位数从8位减少到4位，大约降低了50%的GPU内存需求，同时也使磁盘空间需求减少了约50%。
发布日期：2025年5月30日
版本：1.0
模型开发者：Red Hat (Neural Magic)

📚 详细文档

模型概述

属性	详情
模型类型	DeepseekV3ForCausalLM
输入	文本
输出	文本
激活量化	无
权重量化	INT4
发布日期	2025年5月30日
版本	1.0
模型开发者	Red Hat (Neural Magic)

模型优化

本模型通过将DeepSeek-R1-0528的权重量化为INT4数据类型而得到。这种优化将表示权重的位数从8位减少到4位，大约降低了50%的GPU内存需求，同时也使磁盘空间需求减少了约50%。

评估

该模型通过LightEval在流行的推理任务（AIME 2024、MATH-500、GPQA-Diamond）上进行了评估。对于推理评估，我们基于10次不同种子的运行，在temperature=0.6、top_p=0.95和max_new_tokens=65536的条件下估计了pass@1。