D

Deepseek R1 Distill Qwen 32B Quantized.w8a8

由neuralmagic開發
DeepSeek-R1-Distill-Qwen-32B的INT8量化版本,通過權重量化和激活值量化減少顯存佔用並提升計算效率。
下載量 2,324
發布時間 : 2/5/2025

模型概述

基於DeepSeek-R1-Distill-Qwen-32B的量化模型,採用INT8量化技術優化權重和激活值,顯著降低顯存需求和提升推理速度。

模型特點

INT8量化
權重和激活值均採用INT8量化,減少約50%的GPU顯存佔用,提升矩陣乘法計算吞吐量約2倍。
高效推理
通過vLLM後端支持高效部署,優化大規模語言模型的推理性能。
高精度保持
量化後模型在多項基準測試中保持原始模型99%以上的準確率。

模型能力

文本生成
對話系統
代碼生成
數學推理

使用案例

對話系統
智能客服
用於構建高效的智能客服系統,處理用戶查詢。
支持多輪對話,響應速度快。
代碼生成
編程輔助
幫助開發者生成代碼片段或解決編程問題。
在HumanEval基準測試中pass@1達到85.8%。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase