Q

Qwq 32B INT8 W8A8

由ospatch開發
QWQ-32B的INT8量化版本,通過減少權重和激活的表示位數來優化性能
下載量 590
發布時間 : 3/13/2025

模型概述

QWQ-32B的INT8量化版本,優化了GPU內存需求和計算吞吐量,適用於文本生成任務

模型特點

INT8量化
權重和激活均採用INT8量化,減少GPU內存需求和磁盤空間
高效計算
通過量化提升矩陣乘法計算吞吐量約2倍
與vLLM兼容
支持通過vLLM Docker鏡像部署,提供OpenAI兼容的API

模型能力

文本生成

使用案例

自然語言處理
文本生成
用於生成連貫的文本內容
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase