🚀 NVIDIA DeepSeek-R1-0528-FP4 模型
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,它是一个基于优化的 Transformer 架构的自回归语言模型。该模型可用于商业和非商业用途。
🚀 快速开始
部署
要使用 TensorRT-LLM 的大语言模型(LLM)API 部署量化后的 FP4 检查点,请参考以下示例代码(你需要 8 个 B200 GPU,并且 TensorRT LLM 需从最新的主分支源代码构建):
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-0528-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
评估
准确率基准测试结果如下表所示:
精度 |
MMLU Pro |
GPQA Diamond |
LiveCodeBench |
SCICODE |
MATH - 500 |
AIME 2024 |
FP8 (AA Ref) |
85 |
81 |
77 |
40 |
98 |
89 |
FP4 |
84.2 |
80.0 |
76.3 |
40.1 |
98.1 |
91.3 |
✨ 主要特性
- 基于优化的 Transformer 架构,是自回归语言模型。
- 经过量化处理,减少了磁盘大小和 GPU 内存需求。
- 可用于商业和非商业用途。
📦 安装指南
暂未提及具体安装步骤,可参考代码示例中的依赖库安装。
💻 使用示例
基础用法
上述部署代码即为基础使用示例,通过设置不同的提示语和采样参数,可生成不同的文本。
高级用法
在评估模型性能时,建议进行多次测试并取结果的平均值,以获得更准确的评估结果。
📚 详细文档
模型架构
- 架构类型:Transformers
- 网络架构:DeepSeek R1
输入
- 输入类型:文本
- 输入格式:字符串
- 输入参数:一维序列
- 其他输入相关属性:
- 将温度设置在 0.5 - 0.7 范围内(建议 0.6),以防止无限重复或输出不连贯。
- 避免添加系统提示,所有指令应包含在用户提示中。
- 对于数学问题,建议在提示中包含“请逐步推理,并将最终答案放在 \boxed{} 内”等指令。
- 评估模型性能时,建议进行多次测试并取平均值。
输出
- 输出类型:文本
- 输出格式:字符串
- 输出参数:一维序列
软件集成
- 支持的运行时引擎:TensorRT-LLM
- 支持的硬件微架构兼容性:NVIDIA Blackwell
- 首选操作系统:Linux
模型版本
该模型使用 nvidia-modelopt v0.31.0 进行量化。
训练数据集
- 数据收集方法:混合(人工和自动)
- 标注方法:混合(人工和自动)
测试数据集
- 数据收集方法:混合(人工和自动)
- 标注方法:混合(人工和自动)
评估数据集
- 数据收集方法:混合(人工和自动)
- 标注方法:混合(人工和自动)
校准数据集
推理
- 引擎:TensorRT-LLM
- 测试硬件:B200
训练后量化
该模型通过将 DeepSeek R1 的权重和激活量化为 FP4 数据类型得到,可用于 TensorRT-LLM 推理。仅对 Transformer 块内线性算子的权重和激活进行量化,此优化将每个参数的位数从 8 位减少到 4 位,使磁盘大小和 GPU 内存需求减少约 1.6 倍。
🔧 技术细节
该模型基于 Transformers 架构,使用 DeepSeek R1 网络架构。通过将权重和激活量化为 FP4 数据类型,减少了存储和计算资源的需求。在使用时,需要注意输入的配置,以获得预期的性能。
📄 许可证
本模型遵循 MIT 许可证。
⚠️ 重要提示
基础模型是在最初从互联网爬取的包含有毒语言和社会偏见的数据上进行训练的。因此,该模型可能会放大这些偏见,并在受到有毒提示时返回有毒回复。即使提示本身不包含任何明确的冒犯性内容,模型也可能生成不准确、遗漏关键信息、包含无关或冗余文本的答案,从而产生社会不可接受或不良的文本。
💡 使用建议
当下载或使用本模型时,请根据我们的服务条款,与内部模型团队合作,确保该模型满足相关行业和用例的要求,并解决意外的产品滥用问题。如发现安全漏洞或 NVIDIA AI 相关问题,请 点击此处 报告。