Qwen3-30B-A3B-GGUF開源大語言模型 - 免費部署高效支持文本生成

首頁

Qwen3 30B A3B GGUF

由Mungert開發

Qwen3-30B-A3B是基於Qwen3-30B-A3B-Base的大語言模型，支持文本生成任務，採用超低位量化技術優化內存效率。

大型語言模型開源協議:Apache-2.0 #超低位量化 #內存優化推理 #CPU邊緣計算

下載量 2,135

發布時間 : 5/13/2025

模型概述

Qwen3-30B-A3B是一個30B參數規模的大語言模型，支持文本生成任務。該模型通過GGUF格式和IQ-DynamicGate超低位量化技術，在保持較高精度的同時顯著降低內存佔用，適用於多種硬件環境。

模型特點

IQ-DynamicGate超低位量化

採用1-2比特超低位量化技術，通過動態精度分配和關鍵組件保護，在保持極致內存效率的同時顯著提升精度。

多格式支持

提供BF16、F16及多種量化格式（如Q4_K、Q6_K、Q8_0等），適應不同硬件和內存需求。

硬件適配優化

針對CPU、GPU及邊緣設備進行優化，支持BF16/FP16加速和ARM設備專用量化。

模型能力

文本生成

低內存推理

多硬件支持

使用案例

自然語言處理

文本生成

生成連貫、上下文相關的文本內容。

高質量文本輸出，適用於內容創作、對話系統等。

邊緣計算

低內存設備部署

在內存受限的設備（如邊緣設備）上運行大型語言模型。

通過超低位量化實現高效推理，內存佔用顯著降低。

🚀 Qwen3-30B-A3B GGUF模型

Qwen3-30B-A3B GGUF模型是基於Qwen3-30B-A3B基礎模型生成的一系列不同量化格式的模型，適用於不同硬件和內存條件。這些模型在文本生成任務中表現出色，並且支持超低比特量化技術，能在保證一定精度的同時，大幅減少內存使用。

🚀 快速開始

Qwen3-MoE的代碼已集成在最新的Hugging Face transformers庫中，建議使用最新版本的transformers。

若使用transformers<4.51.0，會遇到如下錯誤：

KeyError: 'qwen3_moe'

以下是一個代碼示例，展示瞭如何使用該模型根據給定輸入生成內容：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 準備模型輸入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之間切換。默認為True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 進行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考內容
try:
    # rindex查找151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

對於部署，可以使用sglang>=0.4.6.post1或vllm>=0.8.5創建與OpenAI兼容的API端點：

SGLang：

python -m sglang.launch_server --model-path Qwen/Qwen3-30B-A3B --reasoning-parser qwen3

vLLM：

vllm serve Qwen/Qwen3-30B-A3B --enable-reasoning --reasoning-parser deepseek_r1

對於本地使用，Ollama、LMStudio、MLX-LM、llama.cpp和KTransformers等應用也已支持Qwen3。

✨ 主要特性

模型生成細節

本模型使用llama.cpp在提交版本064cc596時生成。

超低比特量化（1 - 2比特）

最新的量化方法為超低比特模型（1 - 2比特）引入了精度自適應量化，在Llama - 3 - 8B上經基準測試證明有顯著提升。該方法採用特定層策略，在保持極高內存效率的同時保留精度。

基準測試環境：所有測試均在Llama - 3 - 8B - Instruct上進行，使用標準困惑度評估流程、2048令牌上下文窗口，且所有量化使用相同的提示集。
方法：
- 動態精度分配：前/後25%的層採用IQ4_XS（選定層），中間50%採用IQ2_XXS/IQ3_S（提高效率）。
- 關鍵組件保護：嵌入層/輸出層使用Q5_K，與標準1 - 2比特量化相比，誤差傳播減少38%。
量化性能對比（Llama - 3 - 8B）：

量化方式	標準困惑度	DynamicGate困惑度	困惑度變化	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

關鍵指標說明：

PPL = 困惑度（越低越好）
∆ PPL = 從標準量化到DynamicGate量化的困惑度變化百分比
速度 = 推理時間（CPU avx2，2048令牌上下文）
大小差異反映混合量化開銷

主要改進：

IQ1_M困惑度降低43.9%（從27.46降至15.41）
IQ2_S困惑度降低36.9%，僅增加0.2GB大小
IQ1_S在1比特量化下仍保持39.7%的精度提升

權衡：

所有變體的大小增加適中（0.1 - 0.3GB）
推理速度相近（差異<5%）

適用場景

將模型裝入GPU顯存
內存受限的部署場景
可容忍1 - 2比特誤差的CPU和邊緣設備
超低比特量化研究

選擇合適的模型格式

選擇正確的模型格式取決於硬件能力和內存限制。

BF16（Brain Float 16）——若支持BF16加速則使用

一種16位浮點格式，專為更快計算設計，同時保留良好精度。
提供與FP32相似的動態範圍，但內存使用更低。
若硬件支持BF16加速（檢查設備規格），推薦使用。
與FP32相比，適用於高性能推理且內存佔用減少的場景。

使用BF16的情況：

硬件具有原生BF16支持（如較新的GPU、TPU）。
希望在節省內存的同時獲得更高精度。
計劃將模型重新量化為其他格式。

避免使用BF16的情況：

硬件不支持BF16（可能會回退到FP32並運行較慢）。
需要與缺乏BF16優化的舊設備兼容。

F16（Float 16）——比BF16更廣泛支持

一種16位浮點格式，精度較高，但取值範圍小於BF16。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以進行推理。

使用F16的情況：

硬件支持FP16但不支持BF16。
需要在速度、內存使用和精度之間取得平衡。
在GPU或其他針對FP16計算優化的設備上運行。

避免使用F16的情況：

設備缺乏原生FP16支持（運行速度可能比預期慢）。
存在內存限制。

量化模型（Q4_K、Q6_K、Q8等）——用於CPU和低顯存推理

量化可在儘可能保持精度的同時減少模型大小和內存使用。

低比特模型（Q4_K）：最適合最小內存使用，但精度可能較低。
高比特模型（Q6_K、Q8_0）：精度更高，但需要更多內存。

使用量化模型的情況：

在CPU上進行推理，需要優化模型。
設備顯存較低，無法加載全精度模型。
希望在保持合理精度的同時減少內存佔用。

避免使用量化模型的情況：

需要最高精度（全精度模型更適合）。
硬件有足夠顯存支持更高精度格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極致內存效率進行了優化，適用於低功耗設備或內存是關鍵限制因素的大規模部署。

IQ3_XS：超低比特量化（3比特），具有極致內存效率。適用於超低內存設備，即使Q4_K也過大的情況。精度較低。
IQ3_S：小塊大小，實現最大內存效率。適用於低內存設備，IQ3_XS過於激進的情況。
IQ3_M：中等塊大小，精度優於IQ3_S。適用於低內存設備，IQ3_S限制較大的情況。
Q4_K：4比特量化，採用塊級優化以提高精度。適用於低內存設備，Q6_K過大的情況。
Q4_0：純4比特量化，針對ARM設備優化。適用於基於ARM的設備或低內存環境。

模型格式選擇總結表

模型格式	精度	內存使用	設備要求	最佳使用場景
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境
Q6_K	中等	適中	內存較多的CPU	量化模型中精度較好的情況
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中精度最高
IQ3_XS	極低	極低	超低內存設備	極致內存效率，精度較低
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備優化

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫（如transformers、sglang、vllm等）的官方安裝說明。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/Qwen3-30B-A3B"

# 加載分詞器和模型
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)

# 準備模型輸入
prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True # 在思考和非思考模式之間切換。默認為True。
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

# 進行文本生成
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist() 

# 解析思考內容
try:
    # rindex查找151668 (</think>)
    index = len(output_ids) - output_ids[::-1].index(151668)
except ValueError:
    index = 0

thinking_content = tokenizer.decode(output_ids[:index], skip_special_tokens=True).strip("\n")
content = tokenizer.decode(output_ids[index:], skip_special_tokens=True).strip("\n")

print("thinking content:", thinking_content)
print("content:", content)

高級用法

思考與非思考模式切換

from transformers import AutoModelForCausalLM, AutoTokenizer

class QwenChatbot:
    def __init__(self, model_name="Qwen/Qwen3-30B-A3B"):
        self.tokenizer = AutoTokenizer.from_pretrained(model_name)
        self.model = AutoModelForCausalLM.from_pretrained(model_name)
        self.history = []

    def generate_response(self, user_input):
        messages = self.history + [{"role": "user", "content": user_input}]

        text = self.tokenizer.apply_chat_template(
            messages,
            tokenize=False,
            add_generation_prompt=True
        )

        inputs = self.tokenizer(text, return_tensors="pt")
        response_ids = self.model.generate(**inputs, max_new_tokens=32768)[0][len(inputs.input_ids[0]):].tolist()
        response = self.tokenizer.decode(response_ids, skip_special_tokens=True)

        # 更新歷史記錄
        self.history.append({"role": "user", "content": user_input})
        self.history.append({"role": "assistant", "content": response})

        return response

# 示例用法
if __name__ == "__main__":
    chatbot = QwenChatbot()

    # 第一次輸入（無/think或/no_think標籤，默認啟用思考模式）
    user_input_1 = "How many r's in strawberries?"
    print(f"用戶: {user_input_1}")
    response_1 = chatbot.generate_response(user_input_1)
    print(f"機器人: {response_1}")
    print("----------------------")

    # 第二次輸入，帶有/no_think標籤
    user_input_2 = "Then, how many r's in blueberries? /no_think"
    print(f"用戶: {user_input_2}")
    response_2 = chatbot.generate_response(user_input_2)
    print(f"機器人: {response_2}") 
    print("----------------------")

    # 第三次輸入，帶有/think標籤
    user_input_3 = "Really? /think"
    print(f"用戶: {user_input_3}")
    response_3 = chatbot.generate_response(user_input_3)
    print(f"機器人: {response_3}")

代理使用

from qwen_agent.agents import Assistant

# 定義大語言模型
llm_cfg = {
    'model': 'Qwen3-30B-A3B',

    # 使用阿里雲魔搭提供的端點：
    # 'model_type': 'qwen_dashscope',
    # 'api_key': os.getenv('DASHSCOPE_API_KEY'),

    # 使用與OpenAI API兼容的自定義端點：
    'model_server': 'http://localhost:8000/v1',  # api_base
    'api_key': 'EMPTY',

    # 其他參數：
    # 'generate_cfg': {
    #         # 添加：當響應內容為 `<think>this is the thought</think>this is the answer;
    #         # 不添加：當響應已通過推理內容和最終內容分離。
    #         'thought_in_content': True,
    #     },
}

# 定義工具
tools = [
    {'mcpServers': {  # 可以指定MCP配置文件
            'time': {
                'command': 'uvx',
                'args': ['mcp-server-time', '--local-timezone=Asia/Shanghai']
            },
            "fetch": {
                "command": "uvx",
                "args": ["mcp-server-fetch"]
            }
        }
    },
  'code_interpreter',  # 內置工具
]

# 定義代理
bot = Assistant(llm=llm_cfg, function_list=tools)

# 流式生成
messages = [{'role': 'user', 'content': 'https://qwenlm.github.io/blog/ 介紹Qwen的最新發展'}]
for responses in bot.run(messages=messages):
    pass
print(responses)

📚 詳細文檔

模型概述

Qwen3-30B-A3B具有以下特點：

屬性	詳情
模型類型	因果語言模型
訓練階段	預訓練和後訓練
參數數量	總共305億，激活33億
非嵌入參數數量	299億
層數	48
注意力頭數量（GQA）	Q為32，KV為4
專家數量	128
激活專家數量	8
上下文長度	原生32768，使用YaRN技術可達131072令牌

更多詳細信息，包括基準評估、硬件要求和推理性能，請參考博客、GitHub和文檔。

思考與非思考模式切換

`enable_thinking=True`

默認情況下，Qwen3啟用思考能力，類似於QwQ - 32B。這意味著模型將運用推理能力提升生成響應的質量。例如，在tokenizer.apply_chat_template中顯式設置enable_thinking=True或使用默認值時，模型將進入思考模式。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=True  # enable_thinking的默認值為True
)

在此模式下，模型將生成包裹在<think>...</think>塊中的思考內容，隨後是最終響應。

⚠️ 重要提示

對於思考模式，使用Temperature=0.6、TopP=0.95、TopK=20和MinP=0（generation_config.json中的默認設置）。請勿使用貪心解碼，因為這可能導致性能下降和無限重複。更多詳細指導，請參考最佳實踐部分。

`enable_thinking=False`

提供了一個硬開關，可嚴格禁用模型的思考行為，使其功能與之前的Qwen2.5 - Instruct模型一致。此模式在需要禁用思考以提高效率的場景中特別有用。

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
    enable_thinking=False  # 設置enable_thinking=False可禁用思考模式
)

在此模式下，模型不會生成任何思考內容，也不會包含<think>...</think>塊。

⚠️ 重要提示

對於非思考模式，建議使用Temperature=0.7、TopP=0.8、TopK=20和MinP=0。更多詳細指導，請參考最佳實踐部分。

高級用法：通過用戶輸入切換思考與非思考模式

提供了一個軟開關機制，允許用戶在enable_thinking=True時動態控制模型的行為。具體而言，可以在用戶提示或系統消息中添加/think和/no_think來逐輪切換模型的思考模式。在多輪對話中，模型將遵循最新的指令。

⚠️ 重要提示

對於API兼容性，當enable_thinking=True時，無論用戶是否使用/think或/no_think，模型都會輸出一個包裹在<think>...</think>中的塊。但是，如果禁用了思考，該塊內的內容可能為空。當enable_thinking=False時，軟開關無效。無論用戶輸入任何/think或/no_think標籤，模型都不會生成思考內容，也不會包含<think>...</think>塊。

代理使用

Qwen3在工具調用能力方面表現出色。建議使用[Qwen - Agent](https://github.com/QwenLM/Qwen - Agent)充分發揮Qwen3的代理能力。Qwen - Agent內部封裝了工具調用模板和工具調用解析器，大大降低了編碼複雜度。

要定義可用工具，可以使用MCP配置文件、使用Qwen - Agent的集成工具或自行集成其他工具。

處理長文本

Qwen3原生支持長達32768令牌的上下文長度。對於總長度（包括輸入和輸出）顯著超過此限制的對話，建議使用RoPE縮放技術有效處理長文本。已使用YaRN方法驗證了模型在長達131072令牌上下文長度下的性能。

YaRN目前得到了多個推理框架的支持，例如本地使用的transformers和llama.cpp，以及用於部署的vllm和sglang。一般來說，有兩種方法可以為支持的框架啟用YaRN：

修改模型文件

在config.json文件中添加rope_scaling字段：

{
    ...,
    "rope_scaling": {
        "rope_type": "yarn",
        "factor": 4.0,
        "original_max_position_embeddings": 32768
    }
}

對於llama.cpp，修改後需要重新生成GGUF文件。

傳遞命令行參數

對於vllm，可以使用：

vllm serve ... --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}' --max-model-len 131072

對於sglang，可以使用：

python -m sglang.launch_server ... --json-model-override-args '{"rope_scaling":{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}}'

對於llama.cpp的llama-server，可以使用：

llama-server ... --rope-scaling yarn --rope-scale 4 --yarn-orig-ctx 32768

⚠️ 重要提示

如果遇到以下警告：

Unrecognized keys in `rope_scaling` for 'rope_type'='yarn': {'original_max_position_embeddings'}

請升級transformers>=4.51.0。

⚠️ 重要提示

所有知名的開源框架都實現了靜態YaRN，這意味著縮放因子無論輸入長度如何都保持不變，可能會影響較短文本的性能。建議僅在需要處理長上下文時添加rope_scaling配置。也建議根據需要修改factor。例如，如果應用程序的典型上下文長度為65536令牌，最好將factor設置為2.0。

⚠️ 重要提示

config.json中的默認max_position_embeddings設置為40960。此分配包括為輸出保留32768令牌和為典型提示保留8192令牌，這對於大多數短文本處理場景來說已經足夠。如果平均上下文長度不超過32768令牌，不建議在這種情況下啟用YaRN，因為這可能會降低模型性能。

💡 使用建議

阿里雲魔搭提供的端點默認支持動態YaRN，無需額外配置。

最佳實踐

為實現最佳性能，建議採用以下設置：

採樣參數：
- 思考模式（enable_thinking=True）：使用Temperature=0.6、TopP=0.95、TopK=20和MinP=0。請勿使用貪心解碼，因為這可能導致性能下降和無限重複。
- 非思考模式（enable_thinking=False）：建議使用Temperature=0.7、TopP=0.8、TopK=20和MinP=0。
- 對於支持的框架，可以在0到2之間調整presence_penalty參數以減少無限重複。然而，使用較高的值可能偶爾會導致語言混合和模型性能略有下降。
足夠的輸出長度：對於大多數查詢，建議使用32768令牌的輸出長度。對於高度複雜問題的基準測試，如數學和編程競賽中的問題，建議將最大輸出長度設置為38912令牌。這為模型提供了足夠的空間來生成詳細和全面的響應，從而提高其整體性能。
標準化輸出格式：在進行基準測試時，建議使用提示來標準化模型輸出。
- 數學問題：在提示中包含“請逐步推理，並將最終答案放在\boxed{}內。”
- 多項選擇題：在提示中添加以下JSON結構以標準化響應：“請在answer字段中僅顯示選擇字母，例如"answer": "C"。”
歷史記錄中不包含思考內容：在多輪對話中，歷史模型輸出應僅包括最終輸出部分，無需包含思考內容。這在提供的Jinja2聊天模板中已經實現。然而，對於不直接使用Jinja2聊天模板的框架，開發者需要確保遵循此最佳實踐。

引用

如果您認為我們的工作有幫助，請隨意引用：

@misc{qwen3,
    title  = {Qwen3},
    url    = {https://qwenlm.github.io/blog/qwen3/},
    author = {Qwen Team},
    month  = {April},
    year   = {2025}
}