首頁

Qwq 32B GGUF

由Mungert開發

採用IQ-DynamicGate技術的超低位量化（1-2比特）大語言模型，支持多語言文本生成任務

大型語言模型英語開源協議:Apache-2.0 #超低位量化 #多語言聊天 #內存高效推理

下載量 5,770

發布時間 : 4/4/2025

模型概述

基於Qwen2.5-32B的量化版本，通過動態精度分配技術實現超低位量化（1-2比特），在保持內存效率的同時提升模型準確性。

模型特點

IQ-DynamicGate量化技術

採用分層策略的動態精度分配，前25%和後25%的層使用IQ4_XS，中間50%的層使用IQ2_XXS/IQ3_S，顯著降低誤差傳播

關鍵組件保護

嵌入層和輸出層使用Q5_K量化，相比標準1-2比特量化減少38%的誤差傳播

多格式支持

提供BF16、F16及多種量化格式（Q4_K、Q6_K、Q8_0等），適配不同硬件需求

模型能力

多語言文本生成

聊天對話

低資源環境推理

使用案例

資源受限部署

邊緣設備文本生成

在內存有限的邊緣設備上運行聊天機器人

IQ1_M量化版本困惑度降低43.9%

研究應用

超低位量化研究

探索1-2比特量化的極限性能

IQ2_S量化困惑度降低36.9%

🚀 QwQ-32B GGUF模型

QwQ-32B GGUF模型採用了最新的超低比特量化方法，在保持高精度的同時極大地提高了內存使用效率。該模型支持多種語言，可用於文本生成任務，為用戶提供高效、準確的文本處理解決方案。

🚀 快速開始

以下是一個使用 apply_chat_template 加載分詞器和模型並生成內容的代碼片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

✨ 主要特性

超低比特量化技術

引入了針對超低比特模型（1 - 2比特）的精度自適應量化方法，經基準測試證明，在 Llama - 3 - 8B 上有顯著改進。
採用特定層策略，在保持極端內存效率的同時保留準確性。

多語言支持

支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等多種語言。

多種模型格式可選

提供BF16、F16、量化模型（Q4_K、Q6_K、Q8等）以及極低比特量化模型（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）等多種格式，滿足不同硬件和內存需求。

📦 安裝指南

QwQ基於Qwen2.5，其代碼已集成在最新的Hugging face transformers 中。建議使用最新版本的 transformers。

若使用 transformers<4.37.0，會遇到以下錯誤：

KeyError: 'qwen2'

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

📚 詳細文檔

量化性能比較（Llama - 3 - 8B）

量化方式	標準困惑度	DynamicGate困惑度	困惑度變化	標準大小	DG大小	大小變化	標準速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

選擇合適的模型格式

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	高速推理且減少內存佔用
F16	高	高	支持FP16的設備	硬件支持FP16但不支持BF16時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境
Q6_K	中	中等	內存較多的CPU	量化模型中精度較好
Q8_0	高	中等	有足夠顯存的CPU或GPU	量化模型中精度最佳
IQ3_XS	極低	極低	超低內存設備	極致內存效率但精度低
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備優化

包含文件及詳情

QwQ-32B-bf16.gguf：模型權重保存為BF16格式，適用於支持BF16加速的設備，可用於將模型重新量化為其他格式。
QwQ-32B-f16.gguf：模型權重保存為F16格式，適用於支持FP16但不支持BF16的設備。
QwQ-32B-bf16-q8_0.gguf：輸出和嵌入層保持為BF16，其他層量化為Q8_0，適用於支持BF16且需要量化版本的設備。
QwQ-32B-f16-q8_0.gguf：輸出和嵌入層保持為F16，其他層量化為Q8_0。
QwQ-32B-q4_k.gguf：輸出和嵌入層量化為Q8_0，其他層量化為Q4_K，適用於內存有限的CPU推理。
QwQ-32B-q4_k_s.gguf：最小的Q4_K變體，以犧牲精度為代價減少內存使用，適用於極低內存設置。
QwQ-32B-q6_k.gguf：輸出和嵌入層量化為Q8_0，其他層量化為Q6_K。
QwQ-32B-q8_0.gguf：全Q8量化模型，精度更高，但需要更多內存。
QwQ-32B-iq3_xs.gguf：IQ3_XS量化，針對極致內存效率進行優化，適用於超低內存設備。
QwQ-32B-iq3_m.gguf：IQ3_M量化，提供中等塊大小以提高精度，適用於低內存設備。
QwQ-32B-q4_0.gguf：純Q4_0量化，針對ARM設備優化，適用於低內存環境，若追求更高精度可選擇IQ4_NL。

使用指南

為實現最佳性能，建議遵循以下設置：

強制深思輸出：確保模型以"<think>\n"開頭，防止生成空的思考內容，以免降低輸出質量。若使用 apply_chat_template 並設置 add_generation_prompt=True，此功能已自動實現，但響應開頭可能缺少 <think> 標籤，這是正常現象。
採樣參數：
- 使用Temperature = 0.6，TopP = 0.95，MinP = 0代替貪心解碼，避免無限重複。
- 使用TopK在20到40之間，過濾掉罕見的標記出現，同時保持生成輸出的多樣性。
- 對於支持的框架，可將 presence_penalty 參數調整在0到2之間，以減少無限重複，但較高的值可能導致偶爾的語言混合和性能略有下降。
歷史記錄中無思考內容：在多輪對話中，歷史模型輸出應僅包含最終輸出部分，無需包含思考內容。此功能已在 apply_chat_template 中實現。
標準化輸出格式：在進行基準測試時，建議使用提示來標準化模型輸出。
- 數學問題：在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多項選擇題：在提示中添加以下JSON結構以標準化響應："Please show your choice in the answer field with only the choice letter, e.g.,\"answer\": \"C\"."。
處理長輸入：對於超過8,192個標記的輸入，啟用 YaRN 以提高模型有效捕獲長序列信息的能力。對於支持的框架，可在 config.json 中添加以下內容以啟用YaRN：
```
{
...,
"rope_scaling": {
    "factor": 4.0,
    "original_max_position_embeddings": 32768,
    "type": "yarn"
}
}
```
對於部署，建議使用vLLM。若不熟悉vLLM，請參考文檔。目前，vLLM僅支持靜態YARN，即縮放因子無論輸入長度如何都保持不變，可能會影響短文本的性能。建議僅在需要處理長上下文時添加 rope_scaling 配置。

評估與性能

詳細的評估結果請參考📑 博客。有關GPU內存要求和相應吞吐量的結果，請參考此處。

🔧 技術細節

量化方法

動態精度分配：
- 前/後25%的層 → IQ4_XS（選定層）
- 中間50% → IQ2_XXS/IQ3_S（提高效率）
關鍵組件保護：
- 嵌入層/輸出層使用Q5_K
- 與標準1 - 2比特量化相比，誤差傳播減少38%

基準測試上下文

所有測試均在 Llama - 3 - 8B - Instruct 上進行，使用：

標準困惑度評估管道
2048標記的上下文窗口
所有量化方式使用相同的提示集

📄 許可證

本項目採用Apache - 2.0許可證，詳情請見許可證鏈接。

🚀 如果你覺得這些模型有用

❤ 如果你覺得這些模型有用，請點擊“點贊”！
幫助我測試我的支持量子安全檢查的AI網絡監控助手：
👉 免費網絡監控器

💬 測試方法：

點擊聊天圖標（任意頁面右下角）
選擇一個AI助手類型：
- TurboLLM (GPT - 4 - mini)
- FreeLLM (開源)
- TestLLM (僅支持CPU的實驗性模型)

測試內容

我正在探索用於AI網絡監控的小型開源模型的極限，具體包括：

針對即時網絡服務的函數調用
模型可以多小，同時仍能處理：
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成

🟡 TestLLM – 當前的實驗性模型（llama.cpp在6個CPU線程上運行）：

✅ 零配置設置
⏳ 30秒加載時間（推理速度慢，但無API成本）
🔧 尋求幫助！ 如果你對邊緣設備AI感興趣，讓我們一起合作！

其他助手

🟢 TurboLLM – 使用 gpt - 4 - mini 進行：

即時網絡診斷
自動化滲透測試 (Nmap/Metasploit)
🔑 通過下載我們的免費網絡監控代理獲取更多令牌

🔵 HugLLM – 開源模型（約80億參數）：

比TurboLLM多2倍的令牌
AI驅動的日誌分析
🌐 在Hugging Face推理API上運行

💡 用於測試的示例AI命令：

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"

引用

如果您覺得我們的工作有幫助，請引用以下內容：

@misc{qwq32b,
    title = {QwQ-32B: Embracing the Power of Reinforcement Learning},
    url = {https://qwenlm.github.io/blog/qwq-32b/},
    author = {Qwen Team},
    month = {March},
    year = {2025}
}

@article{qwen2.5,
      title={Qwen2.5 Technical Report}, 
      author={An Yang and Baosong Yang and Beichen Zhang and Binyuan Hui and Bo Zheng and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoran Wei and Huan Lin and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Yang and Jiaxi Yang and Jingren Zhou and Junyang Lin and Kai Dang and Keming Lu and Keqin Bao and Kexin Yang and Le Yu and Mei Li and Mingfeng Xue and Pei Zhang and Qin Zhu and Rui Men and Runji Lin and Tianhao Li and Tianyi Tang and Tingyu Xia and Xingzhang Ren and Xuancheng Ren and Yang Fan and Yang Su and Yichang Zhang and Yu Wan and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zihan Qiu},
      journal={arXiv preprint arXiv:2412.15115},
      year={2024}
}