Qwen3-32B-FP8-dynamic開源高效語言模型，降低內存需求提升計算效率

首頁

Qwen3 32B FP8 Dynamic

由RedHatAI開發

基於Qwen3-32B進行FP8動態量化的高效語言模型，顯著降低內存需求並提升計算效率

大型語言模型

Transformers

開源協議:Apache-2.0 #FP8量化 #多語言指令 #函數調用支持

下載量 917

發布時間 : 5/2/2025

模型概述

該模型通過對Qwen3-32B的激活和權重進行FP8數據類型量化獲得，降低了GPU內存需求約50%，提高了矩陣乘法計算吞吐量約2倍。適用於推理、函數調用、多語言指令跟隨等任務。

模型特點

FP8量化

對權重和激活進行FP8數據類型量化，顯著降低內存需求和提升計算效率

高效部署

支持通過vLLM後端高效部署，優化推理性能

高精度保持

量化後模型在多項基準測試中保持原始模型99%以上的準確率

模型能力

文本生成

函數調用

多語言指令跟隨

翻譯

推理任務處理

使用案例

通用AI助手

知識問答

回答各類知識性問題

在MMLU(5-shot)測試中達到80.89分

數學推理

解決數學問題和邏輯推理

在GSM-8K測試中達到88.32分

專業領域應用

醫學問答

回答醫學相關問題

在AIME 2024測試中達到79.37分

代碼生成

根據描述生成代碼

在代碼生成任務中表現良好

🚀 Qwen3-32B-FP8-dynamic

本模型是對 Qwen3-32B 進行激活和權重量化至 FP8 數據類型得到的優化版本。它能減少 GPU 內存需求、提高矩陣乘法計算吞吐量，同時降低磁盤空間要求。可用於推理、函數調用等多種自然語言處理任務。

🚀 快速開始

本模型可以使用 vLLM 後端進行高效部署，示例代碼如下：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-32B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務，更多詳細信息請參閱文檔。

✨ 主要特性

模型架構

輸入：文本
輸出：文本
模型架構類型：Qwen3ForCausalLM

模型優化

激活量化：FP8
權重量化：FP8

預期用例

推理
函數調用
通過微調服務特定領域專家
多語言指令跟隨
翻譯

適用範圍外情況

禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用。

發佈日期

2025 年 2 月 5 日

版本

1.0

模型開發者

RedHat (Neural Magic)

模型優化詳情

本模型通過將 Qwen3-32B 的激活和權重量化為 FP8 數據類型而獲得。這種優化將表示權重和激活所需的比特數從 16 位減少到 8 位，從而減少了 GPU 內存需求（約 50%），並提高了矩陣乘法計算吞吐量（約 2 倍）。權重量化還將磁盤大小需求減少了約 50%。

僅對 Transformer 塊內線性算子的權重和激活進行量化。權重採用對稱靜態每通道方案進行量化，而激活採用對稱動態每令牌方案進行量化。使用 llm-compressor 庫進行量化。

📦 安裝指南

文檔未提及安裝步驟，暫不提供。

💻 使用示例

基礎用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-32B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高級用法

文檔未提及高級用法示例，暫不提供。

📚 詳細文檔

模型創建

本模型使用 llm-compressor 創建，代碼片段如下：

from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from transformers import AutoModelForCausalLM, AutoTokenizer

# Load model
model_stub = "Qwen/Qwen3-32B"
model_name = model_stub.split("/")[-1]

model = AutoModelForCausalLM.from_pretrained(model_stub)

tokenizer = AutoTokenizer.from_pretrained(model_stub)

# Configure the quantization algorithm and scheme
recipe = QuantizationModifier(
    ignore=["lm_head"],
    targets="Linear",
    scheme="FP8_dynamic",
)

# Apply quantization
oneshot(
    model=model,
    recipe=recipe,
)

# Save to disk in compressed-tensors format
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"Model and tokenizer saved to: {save_path}")

模型評估

本模型在 OpenLLM 排行榜任務（版本 1 和 2）上進行了評估，使用 lm-evaluation-harness；在推理任務上使用 lighteval 進行評估。所有評估均使用 vLLM。

評估詳情

lm-evaluation-harness

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-32B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=2 \
    --tasks openllm \
    --apply_chat_template\
    --fewshot_as_multiturn \
    --batch_size auto

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-32B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=2 \
    --tasks mgsm \
    --apply_chat_template\
    --batch_size auto

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-32B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=16384,enable_chunk_prefill=True,tensor_parallel_size=2 \
    --tasks leaderboard \
    --apply_chat_template\
    --fewshot_as_multiturn \
    --batch_size auto

lighteval lighteval_model_arguments.yaml

model_parameters:
    model_name: RedHatAI/Qwen3-32B-FP8-dynamic
    dtype: auto
    gpu_memory_utilization: 0.9
    tensor_parallel_size: 2
    max_model_length: 40960
    generation_parameters:
        temperature: 0.6
        top_k: 20
        min_p: 0.0
        top_p: 0.95
        max_new_tokens: 32768

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|aime24|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|aime25|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|math_500|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|gpqa:diamond|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks extended|lcb:codegeneration \
    --use_chat_template = true

準確率

類別	基準測試	Qwen3-32B	Qwen3-32B-FP8-dynamic（本模型）	恢復率
OpenLLM v1	MMLU (5-shot)	80.96	80.89	99.9%
	ARC Challenge (25-shot)	69.03	68.00	98.5%
	GSM-8K (5-shot, strict-match)	87.64	88.32	100.8%
	Hellaswag (10-shot)	71.10	71.44	100.5%
	Winogrande (5-shot)	69.77	69.85	100.1%
	TruthfulQA (0-shot, mc2)	58.63	59.13	100.9%
	平均	72.86	72.94	100.1%
OpenLLM v2	MMLU-Pro (5-shot)	54.24	54.78	101.0%
	IFEval (0-shot)	86.23	86.23	100.0%
	BBH (3-shot)	44.29	43.70	98.7%
	Math-lvl-5 (4-shot)	54.61	57.26	104.9%
	GPQA (0-shot)	5.53	5.46	---
	MuSR (0-shot)	7.85	8.81	---
	平均	42.13	42.71	101.4%
多語言	MGSM (0-shot)	32.57
推理（生成）	AIME 2024	79.37	79.37	100.0%
	AIME 2025	71.77	70.42	98.1%
	GPQA diamond	66.67	68.69	103.0%
	Math-lvl-5	96.20	96.40	100.2%
	LiveCodeBench	62.45	63.32	101.4%