QwQ-32B-INT8-W8A8開源模型 - 優化性能助力各場景高效使用，免費部署

首頁

Qwq 32B INT8 W8A8

由ospatch開發

QWQ-32B的INT8量化版本，通過減少權重和激活的表示位數來優化性能

大型語言模型

Transformers

英語開源協議:Apache-2.0 #INT8量化 #高吞吐推理 #大語言模型

下載量 590

發布時間 : 3/13/2025

模型概述

QWQ-32B的INT8量化版本，優化了GPU內存需求和計算吞吐量，適用於文本生成任務

模型特點

INT8量化

權重和激活均採用INT8量化，減少GPU內存需求和磁盤空間

高效計算

通過量化提升矩陣乘法計算吞吐量約2倍

與vLLM兼容

支持通過vLLM Docker鏡像部署，提供OpenAI兼容的API

模型能力

文本生成

使用案例

自然語言處理

文本生成

用於生成連貫的文本內容

🚀 QWQ-32B-INT8-W8A8

QWQ-32B-INT8-W8A8 是 QWQ-32B 的 INT8 量化版本，通過對權重和激活值進行量化，減少了 GPU 內存需求和磁盤空間佔用，同時提高了矩陣乘法的計算吞吐量。

image/jpeg

🚀 快速開始

使用 vLLM 部署

可以使用與 OpenAI 兼容的 vLLM Docker 鏡像進行部署，示例如下：

#!/bin/bash

# 默認值
NAME_SUFFIX=""
PORT=8010
GPUS="0,1"  # 默認 GPU

# 解析命令行參數
while getopts "s:p:g:" opt; do
    case $opt in
        s) NAME_SUFFIX="$OPTARG";;    # 容器名稱後綴
        p) PORT="$OPTARG";;          # 端口號
        g) GPUS="$OPTARG";;          # GPU 設備 (例如 "2,3")
        ?) echo "Usage: $0 [-s suffix] [-p port] [-g gpus]"
           exit 1;;
    esac
done

model=ospatch/QwQ-32B-INT8-W8A8
volume=~/.cache/huggingface/hub
revision=main
version=latest
context=16384
base_name="vllm-qwq-int8"
container_name="${base_name}${NAME_SUFFIX}"

sudo docker run --restart=unless-stopped --name $container_name --runtime nvidia --gpus '"device='"$GPUS"'"' \
     --shm-size 1g -p $PORT:8000 -e NCCL_P2P_DISABLE=1 -e HUGGING_FACE_HUB_TOKEN=<user_token> \
     -v $volume:/root/.cache/huggingface/hub vllm/vllm-openai:$version --model $model \
     --revision $revision --tensor-parallel-size 2 \
     --gpu-memory-utilization 0.97 --max-model-len $context --enable-chunked-prefill

默認配置無需命令行參數。

✨ 主要特性

模型概述

模型架構：採用帶有 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer 架構。
- 輸入：文本
- 輸出：文本
模型優化：
- 權重量化：INT8
- 激活量化：INT8
發佈日期：2025 年 3 月 13 日

模型優化

該模型通過將 QWQ-32B 的權重和激活值量化為 INT8 數據類型獲得。這種優化將表示權重和激活值的位數從 16 位減少到 8 位，從而減少了 GPU 內存需求（約 50%），並提高了矩陣乘法的計算吞吐量（約 2 倍）。權重量化還將磁盤大小需求減少了約 50%。

僅對 Transformer 塊內線性算子的權重和激活值進行量化。權重使用對稱的逐通道方案進行量化，而激活值使用對稱的逐令牌方案進行量化。量化採用了 GPTQ 算法，該算法在 llm-compressor 庫中實現。

💻 使用示例

基礎用法

使用 vLLM 部署模型的基礎用法，見上述快速開始部分的代碼示例。

高級用法

創建該模型的代碼示例如下：

## 腳本複製自 Neural Magic

from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.modifiers.smoothquant import SmoothQuantModifier
from llmcompressor.transformers import oneshot
from llmcompressor.transformers.compression.helpers import calculate_offload_device_map

# 加載模型
model_stub = "Qwen/QwQ-32B"
model_name = model_stub.split("/")[-1]

num_samples = 1024
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_stub)

device_map = calculate_offload_device_map(
    model_stub,
    reserve_for_hessians=True,
    num_gpus=4,
    torch_dtype="auto",
)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map=device_map,
    torch_dtype="auto",
)

def preprocess_fn(example):
  return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train")
ds = ds.map(preprocess_fn)

# 配置量化算法和方案
recipe = [
    SmoothQuantModifier(smoothing_strength=0.7),
    QuantizationModifier(
        targets="Linear",
        scheme="W8A8",
        ignore=["lm_head"],
        dampening_frac=0.1,
    ),
]

# 應用量化
oneshot(
    model=model,
    dataset=ds, 
    recipe=recipe,
    max_seq_length=max_seq_len,
    num_calibration_samples=num_samples,
)

# 以壓縮張量格式保存到磁盤
save_path = model_name + "-INT8-W8A8"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分詞器已保存到: {save_path}")

📚 詳細文檔

使用指南

請參考 QWQ-32B 的模型卡片。

評估與準確性

該模型通過了初步檢查，但未對量化模型的精度損失進行評估。

📄 許可證

本模型採用 Apache-2.0 許可證。

📦 模型信息

屬性	詳情
模型類型	INT8 量化的 Transformer 模型
基礎模型	Qwen/QwQ-32B
發佈日期	2025 年 3 月 13 日
量化算法	GPTQ
量化方案	權重 INT8，激活 INT8
優化效果	減少約 50% 的 GPU 內存和磁盤空間，提高約 2 倍的計算吞吐量