DeepSeek-R1-FP4開源文本生成模型 - 優化架構助力高效文字創作

首頁

Deepseek R1 FP4

由nvidia開發

DeepSeek R1模型的FP4量化版本，採用優化後的Transformer架構實現高效文本生成

大型語言模型

Safetensors

開源協議:MIT #FP4量化推理 #128K長文本處理 #TensorRT-LLM優化

下載量 61.51k

發布時間 : 2/21/2025

模型概述

基於DeepSeek R1的FP4量化模型，專為TensorRT-LLM推理優化，支持128K長上下文生成

模型特點

FP4量化技術

通過TensorRT模型優化器實現權重和激活值的FP4量化，存儲需求降低1.6倍

長上下文支持

支持128K tokens的超長上下文處理能力

Blackwell架構優化

專為NVIDIA Blackwell GPU架構優化的推理性能

模型能力

文本生成

長文本理解

知識問答

使用案例

內容生成

文章續寫

根據給定開頭自動生成連貫的後續內容

知識問答

事實性問答

回答關於世界知識的各類問題

在MMLU基準測試中達到90.7%準確率

🚀 NVIDIA DeepSeek R1 FP4模型

NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本，它是一個使用優化的Transformer架構的自迴歸語言模型。該模型可用於商業和非商業用途。

🚀 快速開始

本模型可使用 TensorRT-LLM LLM API進行部署，具體使用示例見下文。

✨ 主要特性

量化優化：將DeepSeek R1的權重和激活量化為FP4數據類型，減少磁盤大小和GPU內存需求約1.6倍。
廣泛兼容性：支持Tensor(RT)-LLM運行時引擎，與NVIDIA Blackwell硬件微架構兼容，首選Linux操作系統。
長上下文處理：輸入上下文長度可達128K。

📦 安裝指南

使用 TensorRT-LLM LLM API部署量化的FP4檢查點時，需要8xB200 GPU，並使用最新主分支從源代碼構建TensorRT LLM。

💻 使用示例

基礎用法

使用 TensorRT-LLM LLM API部署量化的FP4檢查點的示例代碼如下：

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

評估

準確性基準測試結果如下表所示：

精度	MMLU	GSM8K	AIME2024	GPQA Diamond	MATH-500
FP8	90.8	96.3	80.0	69.7	95.4
FP4	90.7	96.1	80.0	69.2	94.2

📚 詳細文檔

模型概述

NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本，更多信息請查看此處。該模型使用 TensorRT Model Optimizer 進行量化。

第三方社區說明

此模型並非由NVIDIA擁有或開發，而是根據第三方的需求為該應用和用例開發構建的。請查看非NVIDIA (DeepSeek R1) 模型卡片。

許可證

MIT

模型架構

屬性	詳情
架構類型	Transformers
網絡架構	DeepSeek R1

輸入

屬性	詳情
輸入類型	文本
輸入格式	字符串
輸入參數	一維：序列
其他輸入相關屬性	上下文長度可達128K

輸出

屬性	詳情
輸出類型	文本
輸出格式	字符串
輸出參數	一維：序列
其他輸出相關屬性	無

軟件集成

屬性	詳情
支持的運行時引擎	Tensor(RT)-LLM
支持的硬件微架構兼容性	NVIDIA Blackwell
首選操作系統	Linux

模型版本

該模型使用nvidia-modelopt v0.23.0 進行量化。

數據集

數據集類型	數據集名稱	數據收集方法	標註方法
校準數據集	cnn_dailymail	自動化	未知
評估數據集	MMLU	未知	無

推理

屬性	詳情
推理引擎	Tensor(RT)-LLM
測試硬件	B200

訓練後量化

該模型通過將DeepSeek R1的權重和激活量化為FP4數據類型獲得，可用於TensorRT-LLM推理。僅對Transformer塊內線性算子的權重和激活進行量化，此優化將每個參數的位數從8位減少到4位，減少了磁盤大小和GPU內存需求約1.6倍。

🔧 技術細節

本模型將DeepSeek R1的權重和激活量化為FP4數據類型，僅對Transformer塊內線性算子的權重和激活進行量化。這種優化減少了每個參數的位數，從而降低了磁盤大小和GPU內存需求。在推理時，使用TensorRT-LLM引擎，測試硬件為B200。

📄 許可證

本模型使用 MIT 許可證。

⚠️ 重要提示

NVIDIA認為可信AI是一項共同責任，已制定相關政策和實踐以支持各種AI應用的開發。開發者在下載或使用本模型時，應與內部模型團隊合作，確保該模型滿足相關行業和用例的要求，並解決不可預見的產品濫用問題。

如發現安全漏洞或有NVIDIA AI相關問題，請在此處報告。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫