DeepSeek-R1-FP4开源文本生成模型 - 优化架构助力高效文字创作

首页

Deepseek R1 FP4

由 nvidia 开发

DeepSeek R1模型的FP4量化版本，采用优化后的Transformer架构实现高效文本生成

大型语言模型

Safetensors

开源协议:MIT #FP4量化推理 #128K长文本处理 #TensorRT-LLM优化

下载量 61.51k

发布时间 : 2/21/2025

模型简介

基于DeepSeek R1的FP4量化模型，专为TensorRT-LLM推理优化，支持128K长上下文生成

模型特点

FP4量化技术

通过TensorRT模型优化器实现权重和激活值的FP4量化，存储需求降低1.6倍

长上下文支持

支持128K tokens的超长上下文处理能力

Blackwell架构优化

专为NVIDIA Blackwell GPU架构优化的推理性能

模型能力

文本生成

长文本理解

知识问答

使用案例

内容生成

文章续写

根据给定开头自动生成连贯的后续内容

知识问答

事实性问答

回答关于世界知识的各类问题

在MMLU基准测试中达到90.7%准确率

🚀 NVIDIA DeepSeek R1 FP4模型

NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本，它是一个使用优化的Transformer架构的自回归语言模型。该模型可用于商业和非商业用途。

🚀 快速开始

本模型可使用 TensorRT-LLM LLM API进行部署，具体使用示例见下文。

✨ 主要特性

量化优化：将DeepSeek R1的权重和激活量化为FP4数据类型，减少磁盘大小和GPU内存需求约1.6倍。
广泛兼容性：支持Tensor(RT)-LLM运行时引擎，与NVIDIA Blackwell硬件微架构兼容，首选Linux操作系统。
长上下文处理：输入上下文长度可达128K。

📦 安装指南

使用 TensorRT-LLM LLM API部署量化的FP4检查点时，需要8xB200 GPU，并使用最新主分支从源代码构建TensorRT LLM。

💻 使用示例

基础用法

使用 TensorRT-LLM LLM API部署量化的FP4检查点的示例代码如下：

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

评估

准确性基准测试结果如下表所示：

精度	MMLU	GSM8K	AIME2024	GPQA Diamond	MATH-500
FP8	90.8	96.3	80.0	69.7	95.4
FP4	90.7	96.1	80.0	69.2	94.2

📚 详细文档

模型概述

NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本，更多信息请查看此处。该模型使用 TensorRT Model Optimizer 进行量化。

第三方社区说明

此模型并非由NVIDIA拥有或开发，而是根据第三方的需求为该应用和用例开发构建的。请查看非NVIDIA (DeepSeek R1) 模型卡片。

许可证

MIT

模型架构

属性	详情
架构类型	Transformers
网络架构	DeepSeek R1

输入

属性	详情
输入类型	文本
输入格式	字符串
输入参数	一维：序列
其他输入相关属性	上下文长度可达128K

输出

属性	详情
输出类型	文本
输出格式	字符串
输出参数	一维：序列
其他输出相关属性	无

软件集成

属性	详情
支持的运行时引擎	Tensor(RT)-LLM
支持的硬件微架构兼容性	NVIDIA Blackwell
首选操作系统	Linux

模型版本

该模型使用nvidia-modelopt v0.23.0 进行量化。

数据集

数据集类型	数据集名称	数据收集方法	标注方法
校准数据集	cnn_dailymail	自动化	未知
评估数据集	MMLU	未知	无

推理

属性	详情
推理引擎	Tensor(RT)-LLM
测试硬件	B200

训练后量化

该模型通过将DeepSeek R1的权重和激活量化为FP4数据类型获得，可用于TensorRT-LLM推理。仅对Transformer块内线性算子的权重和激活进行量化，此优化将每个参数的位数从8位减少到4位，减少了磁盘大小和GPU内存需求约1.6倍。

🔧 技术细节

本模型将DeepSeek R1的权重和激活量化为FP4数据类型，仅对Transformer块内线性算子的权重和激活进行量化。这种优化减少了每个参数的位数，从而降低了磁盘大小和GPU内存需求。在推理时，使用TensorRT-LLM引擎，测试硬件为B200。

📄 许可证

本模型使用 MIT 许可证。

⚠️ 重要提示

NVIDIA认为可信AI是一项共同责任，已制定相关政策和实践以支持各种AI应用的开发。开发者在下载或使用本模型时，应与内部模型团队合作，确保该模型满足相关行业和用例的要求，并解决不可预见的产品滥用问题。

如发现安全漏洞或有NVIDIA AI相关问题，请在此处报告。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库