DeepSeek-R1-0528-FP4開源語言模型 - 支持商業與非商業用途

首頁

Deepseek R1 0528 FP4

由nvidia開發

DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本，基於優化的 Transformer 架構的自迴歸語言模型，可用於商業和非商業用途。

大型語言模型

Safetensors

開源協議:MIT #FP4量化推理 #大語言模型優化 #Blackwell架構適配

下載量 372

發布時間 : 6/3/2025

模型概述

該模型是 DeepSeek R1 0528 的 FP4 量化版本，減少了磁盤大小和 GPU 內存需求，適用於文本生成任務。

模型特點

FP4 量化

通過將權重和激活量化為 FP4 數據類型，減少存儲和計算資源需求，使磁盤大小和 GPU 內存需求減少約 1.6 倍。

優化的 Transformer 架構

基於優化的 Transformer 架構，是自迴歸語言模型，適用於高效的文本生成任務。

商業和非商業用途

模型可用於商業和非商業用途，遵循 MIT 許可證。

模型能力

文本生成

語言模型推理

使用案例

文本生成

基礎文本補全

根據給定的提示生成連貫的文本補全。

生成符合上下文的連貫文本。

問答系統

回答用戶提出的問題，如事實性問題或推理問題。

生成準確或合理的答案。

🚀 NVIDIA DeepSeek-R1-0528-FP4 模型

NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本，它是一個基於優化的 Transformer 架構的自迴歸語言模型。該模型可用於商業和非商業用途。

🚀 快速開始

部署

要使用 TensorRT-LLM 的大語言模型（LLM）API 部署量化後的 FP4 檢查點，請參考以下示例代碼（你需要 8 個 B200 GPU，並且 TensorRT LLM 需從最新的主分支源代碼構建）：

from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM

def main():

    prompts = [
        "Hello, my name is",
        "The president of the United States is",
        "The capital of France is",
        "The future of AI is",
    ]
    sampling_params = SamplingParams(max_tokens=32)

    llm = LLM(model="nvidia/DeepSeek-R1-0528-FP4", tensor_parallel_size=8, enable_attention_dp=True)

    outputs = llm.generate(prompts, sampling_params)

    # Print the outputs.
    for output in outputs:
        prompt = output.prompt
        generated_text = output.outputs[0].text
        print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")


# The entry point of the program need to be protected for spawning processes.
if __name__ == '__main__':
    main()

評估

準確率基準測試結果如下表所示：

精度	MMLU Pro	GPQA Diamond	LiveCodeBench	SCICODE	MATH - 500	AIME 2024
FP8 (AA Ref)	85	81	77	40	98	89
FP4	84.2	80.0	76.3	40.1	98.1	91.3

✨ 主要特性

基於優化的 Transformer 架構，是自迴歸語言模型。
經過量化處理，減少了磁盤大小和 GPU 內存需求。
可用於商業和非商業用途。

📦 安裝指南

暫未提及具體安裝步驟，可參考代碼示例中的依賴庫安裝。

💻 使用示例

基礎用法

上述部署代碼即為基礎使用示例，通過設置不同的提示語和採樣參數，可生成不同的文本。

高級用法

在評估模型性能時，建議進行多次測試並取結果的平均值，以獲得更準確的評估結果。

📚 詳細文檔

模型架構

架構類型：Transformers
網絡架構：DeepSeek R1

輸入

輸入類型：文本
輸入格式：字符串
輸入參數：一維序列
其他輸入相關屬性：
- 將溫度設置在 0.5 - 0.7 範圍內（建議 0.6），以防止無限重複或輸出不連貫。
- 避免添加系統提示，所有指令應包含在用戶提示中。
- 對於數學問題，建議在提示中包含“請逐步推理，並將最終答案放在 \boxed{} 內”等指令。
- 評估模型性能時，建議進行多次測試並取平均值。