Qwen3-14B-FP8-dynamic開源大語言模型 - 降低內存需求提升計算效率免費可用

首頁

Qwen3 14B FP8 Dynamic

由RedHatAI開發

Qwen3-14B-FP8-dynamic 是一個經過優化的大語言模型，通過將激活值和權重量化為 FP8 數據類型，有效降低了 GPU 內存需求，提高了計算吞吐量。

大型語言模型

Transformers

開源協議:Apache-2.0 #FP8量化優化 #多語言指令跟隨 #高效推理

下載量 167

發布時間 : 5/2/2025

模型概述

該模型適用於推理、函數調用、多語言指令跟隨等多種場景，通過 FP8 量化技術優化了性能和資源使用效率。

模型特點

FP8 量化優化

採用 FP8 數據類型對激活值和權重進行量化，顯著降低 GPU 內存需求和磁盤空間佔用。

高效計算

通過量化技術提高約 2 倍的矩陣乘法計算吞吐量。

多場景適用

支持推理、函數調用、多語言指令跟隨等多種應用場景。

模型能力

文本生成

指令跟隨

函數調用

多語言翻譯

推理任務

使用案例

自然語言處理

大語言模型簡介生成

生成關於大語言模型的簡短介紹文本。

生成符合要求的文本內容

多語言應用

多語言指令跟隨

理解並執行多種語言的指令。

準確理解並響應多語言指令

🚀 Qwen3-14B-FP8-dynamic

Qwen3-14B-FP8-dynamic 是一個經過優化的大語言模型，通過將激活值和權重量化為 FP8 數據類型，有效降低了 GPU 內存需求，提高了計算吞吐量。該模型適用於推理、函數調用、多語言指令跟隨等多種場景。

🚀 快速開始

本模型可以使用 vLLM 後端進行高效部署，以下是一個示例代碼：

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-14B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持與 OpenAI 兼容的服務，更多詳細信息請參閱文檔。

✨ 主要特性

模型架構：採用 Qwen3ForCausalLM 架構，輸入和輸出均為文本。
模型優化：
- 激活值量化：採用 FP8 數據類型。
- 權重量化：採用 FP8 數據類型。
- 優化效果：將表示權重和激活值的比特數從 16 位減少到 8 位，降低了約 50% 的 GPU 內存需求，提高了約 2 倍的矩陣乘法計算吞吐量，同時也將磁盤空間需求降低了約 50%。
適用場景：適用於推理、函數調用、通過微調服務特定領域專家、多語言指令跟隨和翻譯等場景。
不適用場景：禁止以任何違反適用法律法規（包括貿易合規法律）的方式使用。
發佈日期：2025 年 2 月 5 日
版本：1.0
模型開發者：RedHat (Neural Magic)

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Qwen3-14B-FP8-dynamic"
number_gpus = 1
sampling_params = SamplingParams(temperature=0.6, top_p=0.95, top_k=20, min_p=0, max_tokens=256)

messages = [
    {"role": "user", "content": prompt}
]

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [{"role": "user", "content": "Give me a short introduction to large language model."}]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

高級用法

文檔未提及高級用法相關代碼，故跳過此部分。

📚 詳細文檔

模型優化

本模型通過將 Qwen3-14B 的激活值和權重量化為 FP8 數據類型得到。僅對 Transformer 塊內線性算子的權重和激活值進行量化，權重採用對稱靜態逐通道方案進行量化，激活值採用對稱動態逐令牌方案進行量化。量化過程使用了 llm-compressor 庫。

創建過程

本模型使用 llm-compressor 創建，以下是創建代碼：

from llmcompressor.modifiers.quantization import QuantizationModifier
from llmcompressor.transformers import oneshot
from transformers import AutoModelForCausalLM, AutoTokenizer

# Load model
model_stub = "Qwen/Qwen3-14B"
model_name = model_stub.split("/")[-1]

model = AutoModelForCausalLM.from_pretrained(model_stub)

tokenizer = AutoTokenizer.from_pretrained(model_stub)

# Configure the quantization algorithm and scheme
recipe = QuantizationModifier(
    ignore=["lm_head"],
    targets="Linear",
    scheme="FP8_dynamic",
)

# Apply quantization
oneshot(
    model=model,
    recipe=recipe,
)

# Save to disk in compressed-tensors format
save_path = model_name + "-FP8-dynamic"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"Model and tokenizer saved to: {save_path}")

評估

本模型在 OpenLLM 排行榜任務（版本 1 和 2）上使用 lm-evaluation-harness 進行評估，在推理任務上使用 lighteval 進行評估，所有評估均使用 vLLM。

評估詳情

lm-evaluation-harness

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-14B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
    --tasks openllm \
    --apply_chat_template\
    --fewshot_as_multiturn \
    --batch_size auto

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-14B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=8192,enable_chunk_prefill=True,tensor_parallel_size=1 \
    --tasks mgsm \
    --apply_chat_template\
    --batch_size auto

lm_eval \
    --model vllm \
    --model_args pretrained="RedHatAI/Qwen3-14B-FP8-dynamic",dtype=auto,gpu_memory_utilization=0.5,max_model_len=16384,enable_chunk_prefill=True,tensor_parallel_size=1 \
    --tasks leaderboard \
    --apply_chat_template\
    --fewshot_as_multiturn \
    --batch_size auto

lighteval lighteval_model_arguments.yaml

model_parameters:
    model_name: RedHatAI/Qwen3-14B-FP8-dynamic
    dtype: auto
    gpu_memory_utilization: 0.9
    max_model_length: 40960
    generation_parameters:
        temperature: 0.6
        top_k: 20
        min_p: 0.0
        top_p: 0.95
        max_new_tokens: 32768

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|aime24|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|aime25|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|math_500|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks lighteval|gpqa:diamond|0|0 \
    --use_chat_template = true

lighteval vllm \
    --model_args lighteval_model_arguments.yaml \
    --tasks extended|lcb:codegeneration \
    --use_chat_template = true

準確率

類別	基準測試	Qwen3-14B	Qwen3-14B-FP8-dynamic（本模型）	恢復率
OpenLLM v1	MMLU (5-shot)	76.81	76.47	99.6%
OpenLLM v1	ARC Challenge (25-shot)	61.60	61.95	100.6%
OpenLLM v1	GSM-8K (5-shot, strict-match)	67.63	66.19	97.9%
OpenLLM v1	Hellaswag (10-shot)	55.09	56.46	102.5%
OpenLLM v1	Winogrande (5-shot)	62.51	63.61	101.8%
OpenLLM v1	TruthfulQA (0-shot, mc2)	55.39	55.59	100.4%
OpenLLM v1	平均	63.17	63.38	100.3%
OpenLLM v2	MMLU-Pro (5-shot)	44.59	45.21	101.6%
OpenLLM v2	IFEval (0-shot)	87.48	87.78	100.4%
OpenLLM v2	BBH (3-shot)	40.40	40.37	99.9%
OpenLLM v2	Math-lvl-5 (4-shot)	54.18	54.31	100.2%
OpenLLM v2	GPQA (0-shot)	0.30	0.00	---
OpenLLM v2	MuSR (0-shot)	5.74	5.07	---
OpenLLM v2	平均	38.78	38.81	100.1%
多語言	MGSM (0-shot)	26.17	21.77	83.2%
推理（生成）	AIME 2024	76.56	76.88	100.4%
推理（生成）	AIME 2025	66.35	66.98	101.0%
推理（生成）	GPQA diamond	61.62	64.14	104.1%
推理（生成）	Math-lvl-5	96.80	97.20	100.4%
推理（生成）	LiveCodeBench	60.84	60.56	99.5%