Qwen3-30B-A3B-GGUF开源大语言模型 - 免费部署高效支持文本生成

首页

Qwen3 30B A3B GGUF

由 Mungert 开发

Qwen3-30B-A3B是基于Qwen3-30B-A3B-Base的大语言模型，支持文本生成任务，采用超低位量化技术优化内存效率。

大型语言模型开源协议:Apache-2.0 #超低位量化 #内存优化推理 #CPU边缘计算

下载量 2,135

发布时间 : 5/13/2025

模型简介

Qwen3-30B-A3B是一个30B参数规模的大语言模型，支持文本生成任务。该模型通过GGUF格式和IQ-DynamicGate超低位量化技术，在保持较高精度的同时显著降低内存占用，适用于多种硬件环境。

模型特点

IQ-DynamicGate超低位量化

采用1-2比特超低位量化技术，通过动态精度分配和关键组件保护，在保持极致内存效率的同时显著提升精度。

多格式支持

提供BF16、F16及多种量化格式（如Q4_K、Q6_K、Q8_0等），适应不同硬件和内存需求。

硬件适配优化

针对CPU、GPU及边缘设备进行优化，支持BF16/FP16加速和ARM设备专用量化。

模型能力

文本生成

低内存推理

多硬件支持

使用案例

自然语言处理

文本生成

生成连贯、上下文相关的文本内容。

高质量文本输出，适用于内容创作、对话系统等。

边缘计算

低内存设备部署

在内存受限的设备（如边缘设备）上运行大型语言模型。

通过超低位量化实现高效推理，内存占用显著降低。

🚀 Qwen3-30B-A3B GGUF模型

Qwen3-30B-A3B GGUF模型是基于Qwen3-30B-A3B基础模型生成的一系列不同量化格式的模型，适用于不同硬件和内存条件。这些模型在文本生成任务中表现出色，并且支持超低比特量化技术，能在保证一定精度的同时，大幅减少内存使用。

🚀 快速开始

Qwen3-MoE的代码已集成在最新的Hugging Face transformers库中，建议使用最新版本的transformers。

若使用transformers<4.51.0，会遇到如下错误：

KeyError: 'qwen3_moe'

以下是一个代码示例，展示了如何使用该模型根据给定输入生成内容：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之间切换。默认为True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 进行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容
try:
    # rindex查找151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

对于部署，可以使用sglang>=0.4.6.post1或vllm>=0.8.5创建与OpenAI兼容的API端点：

SGLang：

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM：

vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

对于本地使用，Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等应用也已支持Qwen3。

✨ 主要特性

模型生成细节

本模型使用llama.cpp在提交版本064cc596时生成。

超低比特量化（1 - 2比特）

最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，在Llama - 3 - 8B上经基准测试证明有显著提升。该方法采用特定层策略，在保持极高内存效率的同时保留精度。

基准测试环境：所有测试均在Llama - 3 - 8B - Instruct上进行，使用标准困惑度评估流程、2048令牌上下文窗口，且所有量化使用相同的提示集。
方法：
- 动态精度分配：前/后25%的层采用IQ4_XS（选定层），中间50%采用IQ2_XXS/IQ3_S（提高效率）。
- 关键组件保护：嵌入层/输出层使用Q5_K，与标准1 - 2比特量化相比，误差传播减少38%。
量化性能对比（Llama - 3 - 8B）：

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键指标说明：

PPL = 困惑度（越低越好）
∆ PPL = 从标准量化到DynamicGate量化的困惑度变化百分比
速度 = 推理时间（CPU avx2，2048令牌上下文）
大小差异反映混合量化开销

主要改进：

IQ1_M困惑度降低43.9%（从27.46降至15.41）
IQ2_S困惑度降低36.9%，仅增加0.2GB大小
IQ1_S在1比特量化下仍保持39.7%的精度提升

权衡：

所有变体的大小增加适中（0.1 - 0.3GB）
推理速度相近（差异<5%）

适用场景

将模型装入GPU显存
内存受限的部署场景
可容忍1 - 2比特误差的CPU和边缘设备
超低比特量化研究

选择合适的模型格式

选择正确的模型格式取决于硬件能力和内存限制。

BF16（Brain Float 16）——若支持BF16加速则使用

一种16位浮点格式，专为更快计算设计，同时保留良好精度。
提供与FP32相似的动态范围，但内存使用更低。
若硬件支持BF16加速（检查设备规格），推荐使用。
与FP32相比，适用于高性能推理且内存占用减少的场景。

使用BF16的情况：

硬件具有原生BF16支持（如较新的GPU、TPU）。
希望在节省内存的同时获得更高精度。
计划将模型重新量化为其他格式。

避免使用BF16的情况：

硬件不支持BF16（可能会回退到FP32并运行较慢）。
需要与缺乏BF16优化的旧设备兼容。

F16（Float 16）——比BF16更广泛支持

一种16位浮点格式，精度较高，但取值范围小于BF16。
适用于大多数支持FP16加速的设备（包括许多GPU和一些CPU）。
数值精度略低于BF16，但通常足以进行推理。

使用F16的情况：

硬件支持FP16但不支持BF16。
需要在速度、内存使用和精度之间取得平衡。
在GPU或其他针对FP16计算优化的设备上运行。

避免使用F16的情况：

设备缺乏原生FP16支持（运行速度可能比预期慢）。
存在内存限制。

量化模型（Q4_K、Q6_K、Q8等）——用于CPU和低显存推理

量化可在尽可能保持精度的同时减少模型大小和内存使用。

低比特模型（Q4_K）：最适合最小内存使用，但精度可能较低。
高比特模型（Q6_K、Q8_0）：精度更高，但需要更多内存。

使用量化模型的情况：

在CPU上进行推理，需要优化模型。
设备显存较低，无法加载全精度模型。
希望在保持合理精度的同时减少内存占用。

避免使用量化模型的情况：

需要最高精度（全精度模型更适合）。
硬件有足够显存支持更高精度格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极致内存效率进行了优化，适用于低功耗设备或内存是关键限制因素的大规模部署。

IQ3_XS：超低比特量化（3比特），具有极致内存效率。适用于超低内存设备，即使Q4_K也过大的情况。精度较低。
IQ3_S：小块大小，实现最大内存效率。适用于低内存设备，IQ3_XS过于激进的情况。
IQ3_M：中等块大小，精度优于IQ3_S。适用于低内存设备，IQ3_S限制较大的情况。
Q4_K：4比特量化，采用块级优化以提高精度。适用于低内存设备，Q6_K过大的情况。
Q4_0：纯4比特量化，针对ARM设备优化。适用于基于ARM的设备或低内存环境。

模型格式选择总结表

模型格式	精度	内存使用	设备要求	最佳使用场景
BF16	最高	高	支持BF16的GPU/CPU	减少内存的高速推理
F16	高	高	支持FP16的设备	BF16不可用时的GPU推理
Q4_K	中低	低	CPU或低显存设备	内存受限环境
Q6_K	中等	适中	内存较多的CPU	量化模型中精度较好的情况
Q8_0	高	适中	有足够显存的CPU或GPU	量化模型中精度最高
IQ3_XS	极低	极低	超低内存设备	极致内存效率，精度较低
Q4_0	低	低	ARM或低内存设备	llama.cpp可针对ARM设备优化

📦 安装指南

文档未提及具体安装步骤，可参考相关依赖库（如transformers、sglang、vllm等）的官方安装说明。

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加载分词器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 准备模型输入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之间切换。默认为True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 进行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考内容
try:
    # rindex查找151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

高级用法

思考与非思考模式切换

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-30B-A3B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 更新历史记录
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 示例用法
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 第一次输入（无/think或/no_think标签，默认启用思考模式）
    user_input_1 = "How many r's in strawberries?"
    print(f"用户: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"机器人: {response_1}")
    print("----------------------")

    # 第二次输入，带有/no_think标签
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"用户: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"机器人: {response_2}") 
    print("----------------------")

    # 第三次输入，带有/think标签
    user_input_3 = "Really? /think"
    print(f"用户: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"机器人: {response_3}")

代理使用

from qwen_agent.agents import Assistant

# 定义大语言模型
llm_cfg = {
    'model': 'Qwen3-30B-A3B',

    # 使用阿里云魔搭提供的端点：
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # 使用与OpenAI API兼容的自定义端点：
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # 其他参数：
    # 'generate_cfg': {
    #         # 添加：当响应内容为 `<think>this is the thought</think>this is the answer;
    #         # 不添加：当响应已通过推理内容和最终内容分离。
    #         'thought_in_content': True,
    #     },
}

# 定义工具
tools = [
    {'mcpServers': {  # 可以指定MCP配置文件
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 内置工具
]

# 定义代理
bot = Assistant(llm=llm_cfg, function_list=tools)

# 流式生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ 介绍Qwen的最新发展'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

📚 详细文档

模型概述

Qwen3-30B-A3B具有以下特点：

属性	详情
模型类型	因果语言模型
训练阶段	预训练和后训练
参数数量	总共305亿，激活33亿
非嵌入参数数量	299亿
层数	48
注意力头数量（GQA）	Q为32，KV为4
专家数量	128
激活专家数量	8
上下文长度	原生32768，使用YaRN技术可达131072令牌

更多详细信息，包括基准评估、硬件要求和推理性能，请参考博客、GitHub和文档。

思考与非思考模式切换

`enable_thinking=True`

默认情况下，Qwen3启用思考能力，类似于QwQ - 32B。这意味着模型将运用推理能力提升生成响应的质量。例如，在tokenizer.apply_chat_template中显式设置enable_thinking=True或使用默认值时，模型将进入思考模式。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinking的默认值为True
)

在此模式下，模型将生成包裹在<think>...</think>块中的思考内容，随后是最终响应。

⚠️ 重要提示

对于思考模式，使用Temperature=0.6、TopP=0.95、TopK=20和MinP=0（generation_config.json中的默认设置）。请勿使用贪心解码，因为这可能导致性能下降和无限重复。更多详细指导，请参考最佳实践部分。

`enable_thinking=False`

提供了一个硬开关，可严格禁用模型的思考行为，使其功能与之前的Qwen2.5 - Instruct模型一致。此模式在需要禁用思考以提高效率的场景中特别有用。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 设置enable_thinking=False可禁用思考模式
)

在此模式下，模型不会生成任何思考内容，也不会包含<think>...</think>块。

⚠️ 重要提示

对于非思考模式，建议使用Temperature=0.7、TopP=0.8、TopK=20和MinP=0。更多详细指导，请参考最佳实践部分。

高级用法：通过用户输入切换思考与非思考模式

提供了一个软开关机制，允许用户在enable_thinking=True时动态控制模型的行为。具体而言，可以在用户提示或系统消息中添加/think和/no_think来逐轮切换模型的思考模式。在多轮对话中，模型将遵循最新的指令。

⚠️ 重要提示

对于API兼容性，当enable_thinking=True时，无论用户是否使用/think或/no_think，模型都会输出一个包裹在<think>...</think>中的块。但是，如果禁用了思考，该块内的内容可能为空。当enable_thinking=False时，软开关无效。无论用户输入任何/think或/no_think标签，模型都不会生成思考内容，也不会包含<think>...</think>块。

代理使用

Qwen3在工具调用能力方面表现出色。建议使用[Qwen - Agent](https://github.com/QwenLM/Qwen - Agent)充分发挥Qwen3的代理能力。Qwen - Agent内部封装了工具调用模板和工具调用解析器，大大降低了编码复杂度。

要定义可用工具，可以使用MCP配置文件、使用Qwen - Agent的集成工具或自行集成其他工具。

处理长文本

Qwen3原生支持长达32768令牌的上下文长度。对于总长度（包括输入和输出）显著超过此限制的对话，建议使用RoPE缩放技术有效处理长文本。已使用YaRN方法验证了模型在长达131072令牌上下文长度下的性能。

YaRN目前得到了多个推理框架的支持，例如本地使用的transformers和llama.cpp，以及用于部署的vllm和sglang。一般来说，有两种方法可以为支持的框架启用YaRN：

修改模型文件

在config.json文件中添加rope_scaling字段：

{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

对于llama.cpp，修改后需要重新生成GGUF文件。

传递命令行参数

对于vllm，可以使用：

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

对于sglang，可以使用：

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

对于llama.cpp的llama-server，可以使用：

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要提示

如果遇到以下警告：

Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'original_max_position_embeddings'}

请升级transformers>=4.51.0。

⚠️ 重要提示

所有知名的开源框架都实现了静态YaRN，这意味着缩放因子无论输入长度如何都保持不变，可能会影响较短文本的性能。建议仅在需要处理长上下文时添加rope_scaling配置。也建议根据需要修改factor。例如，如果应用程序的典型上下文长度为65536令牌，最好将factor设置为2.0。

⚠️ 重要提示

config.json中的默认max_position_embeddings设置为40960。此分配包括为输出保留32768令牌和为典型提示保留8192令牌，这对于大多数短文本处理场景来说已经足够。如果平均上下文长度不超过32768令牌，不建议在这种情况下启用YaRN，因为这可能会降低模型性能。

💡 使用建议

阿里云魔搭提供的端点默认支持动态YaRN，无需额外配置。

最佳实践

为实现最佳性能，建议采用以下设置：

采样参数：
- 思考模式（enable_thinking=True）：使用Temperature=0.6、TopP=0.95、TopK=20和MinP=0。请勿使用贪心解码，因为这可能导致性能下降和无限重复。
- 非思考模式（enable_thinking=False）：建议使用Temperature=0.7、TopP=0.8、TopK=20和MinP=0。
- 对于支持的框架，可以在0到2之间调整presence_penalty参数以减少无限重复。然而，使用较高的值可能偶尔会导致语言混合和模型性能略有下降。
足够的输出长度：对于大多数查询，建议使用32768令牌的输出长度。对于高度复杂问题的基准测试，如数学和编程竞赛中的问题，建议将最大输出长度设置为38912令牌。这为模型提供了足够的空间来生成详细和全面的响应，从而提高其整体性能。
标准化输出格式：在进行基准测试时，建议使用提示来标准化模型输出。
- 数学问题：在提示中包含“请逐步推理，并将最终答案放在\boxed{}内。”
- 多项选择题：在提示中添加以下JSON结构以标准化响应：“请在answer字段中仅显示选择字母，例如"answer": "C"。”
历史记录中不包含思考内容：在多轮对话中，历史模型输出应仅包括最终输出部分，无需包含思考内容。这在提供的Jinja2聊天模板中已经实现。然而，对于不直接使用Jinja2聊天模板的框架，开发者需要确保遵循此最佳实践。

引用

如果您认为我们的工作有帮助，请随意引用：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}