🚀 NVIDIA DeepSeek-R1-0528-FP4 模型
NVIDIA DeepSeek-R1-0528-FP4 是 DeepSeek AI 公司的 DeepSeek R1 0528 模型的量化版本,它是一個基於優化的 Transformer 架構的自迴歸語言模型。該模型可用於商業和非商業用途。
🚀 快速開始
部署
要使用 TensorRT-LLM 的大語言模型(LLM)API 部署量化後的 FP4 檢查點,請參考以下示例代碼(你需要 8 個 B200 GPU,並且 TensorRT LLM 需從最新的主分支源代碼構建):
from tensorrt_llm import SamplingParams
from tensorrt_llm._torch import LLM
def main():
prompts = [
"Hello, my name is",
"The president of the United States is",
"The capital of France is",
"The future of AI is",
]
sampling_params = SamplingParams(max_tokens=32)
llm = LLM(model="nvidia/DeepSeek-R1-0528-FP4", tensor_parallel_size=8, enable_attention_dp=True)
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
if __name__ == '__main__':
main()
評估
準確率基準測試結果如下表所示:
精度 |
MMLU Pro |
GPQA Diamond |
LiveCodeBench |
SCICODE |
MATH - 500 |
AIME 2024 |
FP8 (AA Ref) |
85 |
81 |
77 |
40 |
98 |
89 |
FP4 |
84.2 |
80.0 |
76.3 |
40.1 |
98.1 |
91.3 |
✨ 主要特性
- 基於優化的 Transformer 架構,是自迴歸語言模型。
- 經過量化處理,減少了磁盤大小和 GPU 內存需求。
- 可用於商業和非商業用途。
📦 安裝指南
暫未提及具體安裝步驟,可參考代碼示例中的依賴庫安裝。
💻 使用示例
基礎用法
上述部署代碼即為基礎使用示例,通過設置不同的提示語和採樣參數,可生成不同的文本。
高級用法
在評估模型性能時,建議進行多次測試並取結果的平均值,以獲得更準確的評估結果。
📚 詳細文檔
模型架構
- 架構類型:Transformers
- 網絡架構:DeepSeek R1
輸入
- 輸入類型:文本
- 輸入格式:字符串
- 輸入參數:一維序列
- 其他輸入相關屬性:
- 將溫度設置在 0.5 - 0.7 範圍內(建議 0.6),以防止無限重複或輸出不連貫。
- 避免添加系統提示,所有指令應包含在用戶提示中。
- 對於數學問題,建議在提示中包含“請逐步推理,並將最終答案放在 \boxed{} 內”等指令。
- 評估模型性能時,建議進行多次測試並取平均值。
輸出
- 輸出類型:文本
- 輸出格式:字符串
- 輸出參數:一維序列
軟件集成
- 支持的運行時引擎:TensorRT-LLM
- 支持的硬件微架構兼容性:NVIDIA Blackwell
- 首選操作系統:Linux
模型版本
該模型使用 nvidia-modelopt v0.31.0 進行量化。
訓練數據集
- 數據收集方法:混合(人工和自動)
- 標註方法:混合(人工和自動)
測試數據集
- 數據收集方法:混合(人工和自動)
- 標註方法:混合(人工和自動)
評估數據集
- 數據收集方法:混合(人工和自動)
- 標註方法:混合(人工和自動)
校準數據集
推理
- 引擎:TensorRT-LLM
- 測試硬件:B200
訓練後量化
該模型通過將 DeepSeek R1 的權重和激活量化為 FP4 數據類型得到,可用於 TensorRT-LLM 推理。僅對 Transformer 塊內線性算子的權重和激活進行量化,此優化將每個參數的位數從 8 位減少到 4 位,使磁盤大小和 GPU 內存需求減少約 1.6 倍。
🔧 技術細節
該模型基於 Transformers 架構,使用 DeepSeek R1 網絡架構。通過將權重和激活量化為 FP4 數據類型,減少了存儲和計算資源的需求。在使用時,需要注意輸入的配置,以獲得預期的性能。
📄 許可證
本模型遵循 MIT 許可證。
⚠️ 重要提示
基礎模型是在最初從互聯網爬取的包含有毒語言和社會偏見的數據上進行訓練的。因此,該模型可能會放大這些偏見,並在受到有毒提示時返回有毒回覆。即使提示本身不包含任何明確的冒犯性內容,模型也可能生成不準確、遺漏關鍵信息、包含無關或冗餘文本的答案,從而產生社會不可接受或不良的文本。
💡 使用建議
當下載或使用本模型時,請根據我們的服務條款,與內部模型團隊合作,確保該模型滿足相關行業和用例的要求,並解決意外的產品濫用問題。如發現安全漏洞或 NVIDIA AI 相關問題,請 點擊此處 報告。