DeepSeek-R1-0528-FP4开源语言模型 - 支持商业与非商业用途

首页

Deepseek R1 0528 FP4

由 nvidia 开发

DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本，基于优化的 Transformer 架构的自回归语言模型，可用于商业和非商业用途。

大型语言模型

Safetensors

开源协议:MIT #FP4量化推理 #大语言模型优化 #Blackwell架构适配

下载量 372

发布时间 : 6/3/2025

模型简介

该模型是 DeepSeek R1 0528 的 FP4 量化版本，减少了磁盘大小和 GPU 内存需求，适用于文本生成任务。

模型特点

FP4 量化

通过将权重和激活量化为 FP4 数据类型，减少存储和计算资源需求，使磁盘大小和 GPU 内存需求减少约 1.6 倍。

优化的 Transformer 架构

基于优化的 Transformer 架构，是自回归语言模型，适用于高效的文本生成任务。

商业和非商业用途

模型可用于商业和非商业用途，遵循 MIT 许可证。

模型能力

文本生成

语言模型推理

使用案例

文本生成

基础文本补全

根据给定的提示生成连贯的文本补全。

生成符合上下文的连贯文本。

问答系统

回答用户提出的问题，如事实性问题或推理问题。

生成准确或合理的答案。

🚀 NVIDIA DeepSeek-R1-0528-FP4 模型

NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本，它是一个基于优化的 Transformer 架构的自回归语言模型。该模型可用于商业和非商业用途。

🚀 快速开始

部署

要使用 TensorRT-LLM 的大语言模型（LLM）API 部署量化后的 FP4 检查点，请参考以下示例代码（你需要 8 个 B200 GPU，并且 TensorRT LLM 需从最新的主分支源代码构建）：

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-0528-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

评估

准确率基准测试结果如下表所示：

精度	MMLU Pro	GPQA Diamond	LiveCodeBench	SCICODE	MATH - 500	AIME 2024
FP8 (AA Ref)	85	81	77	40	98	89
FP4	84.2	80.0	76.3	40.1	98.1	91.3

✨ 主要特性

基于优化的 Transformer 架构，是自回归语言模型。
经过量化处理，减少了磁盘大小和 GPU 内存需求。
可用于商业和非商业用途。

📦 安装指南

暂未提及具体安装步骤，可参考代码示例中的依赖库安装。

💻 使用示例

基础用法

上述部署代码即为基础使用示例，通过设置不同的提示语和采样参数，可生成不同的文本。

高级用法

在评估模型性能时，建议进行多次测试并取结果的平均值，以获得更准确的评估结果。

📚 详细文档

模型架构

架构类型：Transformers
网络架构：DeepSeek R1

输入

输入类型：文本
输入格式：字符串
输入参数：一维序列
其他输入相关属性：
- 将温度设置在 0.5 - 0.7 范围内（建议 0.6），以防止无限重复或输出不连贯。
- 避免添加系统提示，所有指令应包含在用户提示中。
- 对于数学问题，建议在提示中包含“请逐步推理，并将最终答案放在 \boxed{} 内”等指令。
- 评估模型性能时，建议进行多次测试并取平均值。