🚀 NVIDIA DeepSeek R1 FP4模型
NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本,它是一個使用優化的Transformer架構的自迴歸語言模型。該模型可用於商業和非商業用途。
🚀 快速開始
本模型可使用 TensorRT-LLM LLM API進行部署,具體使用示例見下文。
✨ 主要特性
- 量化優化:將DeepSeek R1的權重和激活量化為FP4數據類型,減少磁盤大小和GPU內存需求約1.6倍。
- 廣泛兼容性:支持Tensor(RT)-LLM運行時引擎,與NVIDIA Blackwell硬件微架構兼容,首選Linux操作系統。
- 長上下文處理:輸入上下文長度可達128K。
📦 安裝指南
使用 TensorRT-LLM LLM API部署量化的FP4檢查點時,需要8xB200 GPU,並使用最新主分支從源代碼構建TensorRT LLM。
💻 使用示例
基礎用法
使用 TensorRT-LLM LLM API部署量化的FP4檢查點的示例代碼如下:
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
評估
準確性基準測試結果如下表所示:
精度 |
MMLU |
GSM8K |
AIME2024 |
GPQA Diamond |
MATH-500 |
FP8 |
90.8 |
96.3 |
80.0 |
69.7 |
95.4 |
FP4 |
90.7 |
96.1 |
80.0 |
69.2 |
94.2 |
📚 詳細文檔
模型概述
NVIDIA DeepSeek R1 FP4模型是DeepSeek AI的DeepSeek R1模型的量化版本,更多信息請查看 此處。該模型使用 TensorRT Model Optimizer 進行量化。
第三方社區說明
此模型並非由NVIDIA擁有或開發,而是根據第三方的需求為該應用和用例開發構建的。請查看非NVIDIA (DeepSeek R1) 模型卡片。
許可證
MIT
模型架構
屬性 |
詳情 |
架構類型 |
Transformers |
網絡架構 |
DeepSeek R1 |
輸入
屬性 |
詳情 |
輸入類型 |
文本 |
輸入格式 |
字符串 |
輸入參數 |
一維:序列 |
其他輸入相關屬性 |
上下文長度可達128K |
輸出
屬性 |
詳情 |
輸出類型 |
文本 |
輸出格式 |
字符串 |
輸出參數 |
一維:序列 |
其他輸出相關屬性 |
無 |
軟件集成
屬性 |
詳情 |
支持的運行時引擎 |
Tensor(RT)-LLM |
支持的硬件微架構兼容性 |
NVIDIA Blackwell |
首選操作系統 |
Linux |
模型版本
該模型使用nvidia-modelopt v0.23.0 進行量化。
數據集
推理
屬性 |
詳情 |
推理引擎 |
Tensor(RT)-LLM |
測試硬件 |
B200 |
訓練後量化
該模型通過將DeepSeek R1的權重和激活量化為FP4數據類型獲得,可用於TensorRT-LLM推理。僅對Transformer塊內線性算子的權重和激活進行量化,此優化將每個參數的位數從8位減少到4位,減少了磁盤大小和GPU內存需求約1.6倍。
🔧 技術細節
本模型將DeepSeek R1的權重和激活量化為FP4數據類型,僅對Transformer塊內線性算子的權重和激活進行量化。這種優化減少了每個參數的位數,從而降低了磁盤大小和GPU內存需求。在推理時,使用TensorRT-LLM引擎,測試硬件為B200。
📄 許可證
本模型使用 MIT 許可證。
⚠️ 重要提示
NVIDIA認為可信AI是一項共同責任,已制定相關政策和實踐以支持各種AI應用的開發。開發者在下載或使用本模型時,應與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決不可預見的產品濫用問題。
如發現安全漏洞或有NVIDIA AI相關問題,請在 此處 報告。