🚀 DeepSeek-R1-0528量化模型(w4a16)
本项目提供了经过量化处理的DeepSeek-R1-0528模型,通过将权重量化为INT4数据类型,显著降低了GPU内存和磁盘空间的需求。同时,介绍了该模型的架构、优化方式、部署方法以及评估结果。
🚀 快速开始
本模型可以使用vLLM后端高效部署,示例代码如下:
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "RedHatAI/DeepSeek-R1-0528-quantized.w4a16"
number_gpus = 8
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, max_tokens=256)
tokenizer = AutoTokenizer.from_pretrained(model_id)
prompt = "Give me a short introduction to large language model."
llm = LLM(model=model_id, tensor_parallel_size=number_gpus)
outputs = llm.generate(prompt, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLM还支持与OpenAI兼容的服务,更多详情请参阅文档。
✨ 主要特性
- 模型架构:采用DeepseekV3ForCausalLM架构,输入和输出均为文本。
- 模型优化:对DeepSeek-R1-0528模型的权重进行量化处理,将其转换为INT4数据类型。这种优化将表示权重的位数从8位减少到4位,大约降低了50%的GPU内存需求,同时也使磁盘空间需求减少了约50%。
- 发布日期:2025年5月30日
- 版本:1.0
- 模型开发者:Red Hat (Neural Magic)
📚 详细文档
模型概述
属性 |
详情 |
模型类型 |
DeepseekV3ForCausalLM |
输入 |
文本 |
输出 |
文本 |
激活量化 |
无 |
权重量化 |
INT4 |
发布日期 |
2025年5月30日 |
版本 |
1.0 |
模型开发者 |
Red Hat (Neural Magic) |
模型优化
本模型通过将DeepSeek-R1-0528的权重量化为INT4数据类型而得到。这种优化将表示权重的位数从8位减少到4位,大约降低了50%的GPU内存需求,同时也使磁盘空间需求减少了约50%。
评估
该模型通过LightEval在流行的推理任务(AIME 2024、MATH-500、GPQA-Diamond)上进行了评估。对于推理评估,我们基于10次不同种子的运行,在temperature=0.6
、top_p=0.95
和max_new_tokens=65536
的条件下估计了pass@1。
准确率
任务 |
恢复率(%) |
deepseek/DeepSeek-R1-0528 |
RedHatAI/DeepSeek-R1-0528-quantized.w4a16 (本模型) |
AIME 2024 pass@1 |
98.50 |
88.66 |
87.33 |
MATH-500 pass@1 |
99.88 |
97.52 |
97.40 |
GPQA Diamond pass@1 |
101.21 |
79.65 |
80.61 |
推理 平均得分 |
99.82 |
88.61 |
88.45 |
📄 许可证
本项目采用MIT许可证。