Q

Qwq 32B FP8 Dynamic

由nm-testing開發
QwQ-32B的FP8量化版本,通過動態量化技術減少50%存儲和內存需求,同時保持99.75%的原模型精度
下載量 3,895
發布時間 : 3/5/2025

模型概述

基於Qwen/QwQ-32B的FP8量化版本,適用於高效推理部署,特別優化了vLLM後端支持

模型特點

FP8動態量化
權重和激活值均採用FP8量化,存儲和內存需求減少約50%
高精度保持
綜合測試顯示保持99.75%的原模型精度,部分測試指標甚至有所提升
vLLM優化
特別針對vLLM推理框架進行優化,支持高效並行推理
量化方案優化
權重採用逐通道對稱量化,激活值採用逐token對稱量化方案

模型能力

中文文本生成
多輪對話
複雜推理
知識問答

使用案例

智能對話
個性化角色扮演
模擬特定角色風格進行對話,如海盜口吻
在保持語義準確性的同時實現風格化表達
教育輔助
數學問題解答
解決高中及以上難度的數學問題
在MATH-500測試中達到97.44%準確率
專業諮詢
專業領域問答
回答GPQA鑽石級專業問題
保持63.21%的準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase