Q

Qwen3 32B FP8 Dynamic

由RedHatAI開發
基於Qwen3-32B進行FP8動態量化的高效語言模型,顯著降低內存需求並提升計算效率
下載量 917
發布時間 : 5/2/2025

模型概述

該模型通過對Qwen3-32B的激活和權重進行FP8數據類型量化獲得,降低了GPU內存需求約50%,提高了矩陣乘法計算吞吐量約2倍。適用於推理、函數調用、多語言指令跟隨等任務。

模型特點

FP8量化
對權重和激活進行FP8數據類型量化,顯著降低內存需求和提升計算效率
高效部署
支持通過vLLM後端高效部署,優化推理性能
高精度保持
量化後模型在多項基準測試中保持原始模型99%以上的準確率

模型能力

文本生成
函數調用
多語言指令跟隨
翻譯
推理任務處理

使用案例

通用AI助手
知識問答
回答各類知識性問題
在MMLU(5-shot)測試中達到80.89分
數學推理
解決數學問題和邏輯推理
在GSM-8K測試中達到88.32分
專業領域應用
醫學問答
回答醫學相關問題
在AIME 2024測試中達到79.37分
代碼生成
根據描述生成代碼
在代碼生成任務中表現良好
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase