Qwen3-8B-FP8-dynamic開源模型 - 降低資源佔用且保持性能的實用之選

首頁

Qwen3 8B FP8 Dynamic

由RedHatAI開發

Qwen3-8B-FP8-dynamic是基於Qwen3-8B模型通過FP8量化優化的版本，顯著降低了GPU內存需求和磁盤空間佔用，同時保持了原始模型的性能。

大型語言模型

Transformers

開源協議:Apache-2.0 #FP8量化 #多語言生成 #高效推理

下載量 81

發布時間 : 5/2/2025

模型概述

該模型是通過將Qwen3-8B的激活和權重量化為FP8數據類型得到的優化版本，適用於推理、函數調用和多語言指令跟隨等任務。

模型特點

FP8量化

通過FP8量化技術，顯著降低了GPU內存需求（約50%）和磁盤空間佔用（約50%），同時提高了計算吞吐量（約2倍）。

高效推理

優化後的模型保持了原始模型的性能，在多個基準測試中表現優異，部分任務甚至有所提升。

多語言支持

支持多語言指令跟隨和翻譯任務，適用於國際化應用場景。

模型能力

文本生成

函數調用

多語言指令跟隨

翻譯

使用案例

通用AI助手

智能問答

回答用戶提出的各種問題，提供準確的信息和建議。

在OpenLLM v1基準測試中平均恢復率達到101.0%

教育

數學問題解答

解決複雜的數學問題，提供詳細的解題步驟。

在Math-lvl-5測試中達到51.90分

商業應用

多語言客服

提供多語言的客戶服務支持，理解並回答客戶諮詢。

在MGSM多語言測試中達到25.80分

🚀 Qwen3-8B-FP8-dynamic

Qwen3-8B-FP8-dynamic 是一個經過優化的大語言模型，通過將激活和權重量化為 FP8 數據類型，減少了 GPU 內存需求和磁盤空間佔用，同時提高了計算吞吐量。該模型適用於推理、函數調用、多語言指令遵循等多種場景。

🚀 快速開始

以下是使用 vLLM 部署該模型的示例代碼：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-8B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務。更多詳細信息請參閱文檔。

✨ 主要特性

模型架構：採用 Qwen3ForCausalLM 架構，輸入和輸出均為文本。
模型優化：將激活和權重量化為 FP8 數據類型，減少 GPU 內存需求約 50%，提高矩陣乘法計算吞吐量約 2 倍，同時磁盤大小需求也減少約 50%。
預期用例：適用於推理、函數調用、通過微調服務主題專家、多語言指令遵循和翻譯等場景。

📚 詳細文檔

模型概述

模型架構：Qwen3ForCausalLM
- 輸入：文本
- 輸出：文本
模型優化：
- 激活量化：FP8
- 權重量化：FP8
預期用例：
- 推理。
- 函數調用。
- 通過微調服務主題專家。
- 多語言指令遵循。
- 翻譯。
適用範圍外：禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用。
發佈日期：2025 年 2 月 5 日
版本：1.0
模型開發者：RedHat (Neural Magic)

模型優化

該模型是通過將 Qwen3-8B 的激活和權重量化為 FP8 數據類型得到的。這種優化將表示權重和激活的位數從 16 位減少到 8 位，從而減少了 GPU 內存需求（約 50%）並提高了矩陣乘法計算吞吐量（約 2 倍）。權重量化還將磁盤大小需求減少了約 50%。

僅對 Transformer 塊內線性算子的權重和激活進行量化。權重採用對稱靜態每通道方案進行量化，而激活採用對稱動態每令牌方案進行量化。量化過程使用了 llm-compressor 庫。

部署

該模型可以使用 vLLM 後端進行高效部署，示例代碼見快速開始部分。

創建

創建詳情

該模型使用 [llm-compressor](https://github.com/vllm-project/llm-compressor) 通過運行以下代碼片段創建：

from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from transformers import AutoModelForCausalLM, AutoTokenizer

# 加載模型
model_stub = "Qwen/Qwen3-8B"
model_name = model_stub.split("/")[-1]

model = AutoModelForCausalLM.from_pretrained(model_stub)

tokenizer = AutoTokenizer.from_pretrained(model_stub)

# 配置量化算法和方案
recipe = QuantizationModifier(
    ignore=["lm_head"],
    targets="Linear",
    scheme="FP8_dynamic",
)

# 應用量化
oneshot(
    model=model,
    recipe=recipe,
)

# 以壓縮張量格式保存到磁盤
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"模型和分詞器保存到: {save_path}")

評估

該模型在 OpenLLM 排行榜任務（版本 1 和 2）上使用 lm-evaluation-harness 進行評估，並在推理任務上使用 lighteval 進行評估。所有評估均使用 vLLM。

評估詳情

lm-evaluation-harness

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks openllm \
  --apply_chat_template\
  --fewshot_as_multiturn \
  --batch_size auto

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks mgsm \
  --apply_chat_template\
  --batch_size auto

lm_eval \
  --model vllm \
  --model_args pretrained="RedHatAI/Qwen3-8B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=16384,enable_chunk_prefill=True,tensor_parallel_size=1 \
  --tasks leaderboard \
  --apply_chat_template\
  --fewshot_as_multiturn \
  --batch_size auto

lighteval

lighteval_model_arguments.yaml

model_parameters:
  model_name: RedHatAI/Qwen3-8B-FP8-dynamic
  dtype: auto
  gpu_memory_utilization: 0.9
  max_model_length: 40960
  generation_parameters:
    temperature: 0.6
    top_k: 20
    min_p: 0.0
    top_p: 0.95
    max_new_tokens: 32768

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|aime24|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|aime25|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|math_500|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks lighteval|gpqa:diamond|0|0 \
  --use_chat_template = true

lighteval vllm \
  --model_args lighteval_model_arguments.yaml \
  --tasks extended|lcb:codegeneration \
  --use_chat_template = true

準確性

類別	基準測試	Qwen3-8B	Qwen3-8B-FP8-dynamic（本模型）	恢復率
OpenLLM v1	MMLU (5-shot)	71.95	72.30	100.5%
	ARC Challenge (25-shot)	61.69	61.60	99.9%
	GSM-8K (5-shot, strict-match)	75.97	80.52	106.0%
	Hellaswag (10-shot)	56.52	55.95	99.0%
	Winogrande (5-shot)	65.98	66.22	100.4%
	TruthfulQA (0-shot, mc2)	53.17	52.39	98.5%
	平均	64.21	64.83	101.0%
OpenLLM v2	MMLU-Pro (5-shot)	34.57	37.82	109.4%
	IFEval (0-shot)	84.77	84.56	99.8%
	BBH (3-shot)	25.47	27.20	106.8%
	Math-lvl-5 (4-shot)	51.05	51.90	101.7%
	GPQA (0-shot)	0.00	0.00	---
	MuSR (0-shot)	10.02	10.65	---
	平均	34.31	35.35	103.0%
多語言	MGSM (0-shot)	25.97	25.80	99.4%
推理 (生成)	AIME 2024	74.58	76.35	102.4%
	AIME 2025	65.21	63.75	97.8%
	GPQA diamond	58.59	61.11	104.3%
	Math-lvl-5	97.60	96.60	99.0%
	LiveCodeBench	56.27	56.60	100.6%