🚀 NVIDIA DeepSeek R1 FP4模型
NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本,它是一个使用优化的Transformer架构的自回归语言模型。该模型可用于商业和非商业用途。
🚀 快速开始
本模型可使用 TensorRT-LLM LLM API进行部署,具体使用示例见下文。
✨ 主要特性
- 量化优化:将DeepSeek R1的权重和激活量化为FP4数据类型,减少磁盘大小和GPU内存需求约1.6倍。
- 广泛兼容性:支持Tensor(RT)-LLM运行时引擎,与NVIDIA Blackwell硬件微架构兼容,首选Linux操作系统。
- 长上下文处理:输入上下文长度可达128K。
📦 安装指南
使用 TensorRT-LLM LLM API部署量化的FP4检查点时,需要8xB200 GPU,并使用最新主分支从源代码构建TensorRT LLM。
💻 使用示例
基础用法
使用 TensorRT-LLM LLM API部署量化的FP4检查点的示例代码如下:
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
评估
准确性基准测试结果如下表所示:
精度 |
MMLU |
GSM8K |
AIME2024 |
GPQA Diamond |
MATH-500 |
FP8 |
90.8 |
96.3 |
80.0 |
69.7 |
95.4 |
FP4 |
90.7 |
96.1 |
80.0 |
69.2 |
94.2 |
📚 详细文档
模型概述
NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本,更多信息请查看 此处。该模型使用 TensorRT Model Optimizer 进行量化。
第三方社区说明
此模型并非由NVIDIA拥有或开发,而是根据第三方的需求为该应用和用例开发构建的。请查看非NVIDIA (DeepSeek R1) 模型卡片。
许可证
MIT
模型架构
属性 |
详情 |
架构类型 |
Transformers |
网络架构 |
DeepSeek R1 |
输入
属性 |
详情 |
输入类型 |
文本 |
输入格式 |
字符串 |
输入参数 |
一维:序列 |
其他输入相关属性 |
上下文长度可达128K |
输出
属性 |
详情 |
输出类型 |
文本 |
输出格式 |
字符串 |
输出参数 |
一维:序列 |
其他输出相关属性 |
无 |
软件集成
属性 |
详情 |
支持的运行时引擎 |
Tensor(RT)-LLM |
支持的硬件微架构兼容性 |
NVIDIA Blackwell |
首选操作系统 |
Linux |
模型版本
该模型使用nvidia-modelopt v0.23.0 进行量化。
数据集
推理
属性 |
详情 |
推理引擎 |
Tensor(RT)-LLM |
测试硬件 |
B200 |
训练后量化
该模型通过将DeepSeek R1的权重和激活量化为FP4数据类型获得,可用于TensorRT-LLM推理。仅对Transformer块内线性算子的权重和激活进行量化,此优化将每个参数的位数从8位减少到4位,减少了磁盘大小和GPU内存需求约1.6倍。
🔧 技术细节
本模型将DeepSeek R1的权重和激活量化为FP4数据类型,仅对Transformer块内线性算子的权重和激活进行量化。这种优化减少了每个参数的位数,从而降低了磁盘大小和GPU内存需求。在推理时,使用TensorRT-LLM引擎,测试硬件为B200。
📄 许可证
本模型使用 MIT 许可证。
⚠️ 重要提示
NVIDIA认为可信AI是一项共同责任,已制定相关政策和实践以支持各种AI应用的开发。开发者在下载或使用本模型时,应与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决不可预见的产品滥用问题。
如发现安全漏洞或有NVIDIA AI相关问题,请在 此处 报告。