Qwq 32B GGUF
採用IQ-DynamicGate技術的超低位量化(1-2比特)大語言模型,支持多語言文本生成任務
下載量 5,770
發布時間 : 4/4/2025
模型概述
基於Qwen2.5-32B的量化版本,通過動態精度分配技術實現超低位量化(1-2比特),在保持內存效率的同時提升模型準確性。
模型特點
IQ-DynamicGate量化技術
採用分層策略的動態精度分配,前25%和後25%的層使用IQ4_XS,中間50%的層使用IQ2_XXS/IQ3_S,顯著降低誤差傳播
關鍵組件保護
嵌入層和輸出層使用Q5_K量化,相比標準1-2比特量化減少38%的誤差傳播
多格式支持
提供BF16、F16及多種量化格式(Q4_K、Q6_K、Q8_0等),適配不同硬件需求
模型能力
多語言文本生成
聊天對話
低資源環境推理
使用案例
資源受限部署
邊緣設備文本生成
在內存有限的邊緣設備上運行聊天機器人
IQ1_M量化版本困惑度降低43.9%
研究應用
超低位量化研究
探索1-2比特量化的極限性能
IQ2_S量化困惑度降低36.9%
🚀 QwQ-32B GGUF模型
QwQ-32B GGUF模型採用了最新的超低比特量化方法,在保持高精度的同時極大地提高了內存使用效率。該模型支持多種語言,可用於文本生成任務,為用戶提供高效、準確的文本處理解決方案。
🚀 快速開始
以下是一個使用 apply_chat_template
加載分詞器和模型並生成內容的代碼片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r's are in the word \"strawberry\""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
超低比特量化技術
- 引入了針對超低比特模型(1 - 2比特)的精度自適應量化方法,經基準測試證明,在 Llama - 3 - 8B 上有顯著改進。
- 採用特定層策略,在保持極端內存效率的同時保留準確性。
多語言支持
支持中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韓文、越南文、泰文、阿拉伯文等多種語言。
多種模型格式可選
提供BF16、F16、量化模型(Q4_K、Q6_K、Q8等)以及極低比特量化模型(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)等多種格式,滿足不同硬件和內存需求。
📦 安裝指南
QwQ基於Qwen2.5,其代碼已集成在最新的Hugging face transformers
中。建議使用最新版本的 transformers
。
若使用 transformers<4.37.0
,會遇到以下錯誤:
KeyError: 'qwen2'
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r's are in the word \"strawberry\""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
📚 詳細文檔
量化性能比較(Llama - 3 - 8B)
量化方式 | 標準困惑度 | DynamicGate困惑度 | 困惑度變化 | 標準大小 | DG大小 | 大小變化 | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
選擇合適的模型格式
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 高速推理且減少內存佔用 |
F16 | 高 | 高 | 支持FP16的設備 | 硬件支持FP16但不支持BF16時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境 |
Q6_K | 中 | 中等 | 內存較多的CPU | 量化模型中精度較好 |
Q8_0 | 高 | 中等 | 有足夠顯存的CPU或GPU | 量化模型中精度最佳 |
IQ3_XS | 極低 | 極低 | 超低內存設備 | 極致內存效率但精度低 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備優化 |
包含文件及詳情
QwQ-32B-bf16.gguf
:模型權重保存為BF16格式,適用於支持BF16加速的設備,可用於將模型重新量化為其他格式。QwQ-32B-f16.gguf
:模型權重保存為F16格式,適用於支持FP16但不支持BF16的設備。QwQ-32B-bf16-q8_0.gguf
:輸出和嵌入層保持為BF16,其他層量化為Q8_0,適用於支持BF16且需要量化版本的設備。QwQ-32B-f16-q8_0.gguf
:輸出和嵌入層保持為F16,其他層量化為Q8_0。QwQ-32B-q4_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q4_K,適用於內存有限的CPU推理。QwQ-32B-q4_k_s.gguf
:最小的Q4_K變體,以犧牲精度為代價減少內存使用,適用於極低內存設置。QwQ-32B-q6_k.gguf
:輸出和嵌入層量化為Q8_0,其他層量化為Q6_K。QwQ-32B-q8_0.gguf
:全Q8量化模型,精度更高,但需要更多內存。QwQ-32B-iq3_xs.gguf
:IQ3_XS量化,針對極致內存效率進行優化,適用於超低內存設備。QwQ-32B-iq3_m.gguf
:IQ3_M量化,提供中等塊大小以提高精度,適用於低內存設備。QwQ-32B-q4_0.gguf
:純Q4_0量化,針對ARM設備優化,適用於低內存環境,若追求更高精度可選擇IQ4_NL。
使用指南
為實現最佳性能,建議遵循以下設置:
- 強制深思輸出:確保模型以"<think>\n"開頭,防止生成空的思考內容,以免降低輸出質量。若使用
apply_chat_template
並設置add_generation_prompt=True
,此功能已自動實現,但響應開頭可能缺少 <think> 標籤,這是正常現象。 - 採樣參數:
- 使用Temperature = 0.6,TopP = 0.95,MinP = 0代替貪心解碼,避免無限重複。
- 使用TopK在20到40之間,過濾掉罕見的標記出現,同時保持生成輸出的多樣性。
- 對於支持的框架,可將
presence_penalty
參數調整在0到2之間,以減少無限重複,但較高的值可能導致偶爾的語言混合和性能略有下降。
- 歷史記錄中無思考內容:在多輪對話中,歷史模型輸出應僅包含最終輸出部分,無需包含思考內容。此功能已在
apply_chat_template
中實現。 - 標準化輸出格式:在進行基準測試時,建議使用提示來標準化模型輸出。
- 數學問題:在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多項選擇題:在提示中添加以下JSON結構以標準化響應:"Please show your choice in the
answer
field with only the choice letter, e.g.,\"answer\": \"C\"
."。
- 處理長輸入:對於超過8,192個標記的輸入,啟用 YaRN 以提高模型有效捕獲長序列信息的能力。
對於支持的框架,可在
config.json
中添加以下內容以啟用YaRN:
對於部署,建議使用vLLM。若不熟悉vLLM,請參考文檔。目前,vLLM僅支持靜態YARN,即縮放因子無論輸入長度如何都保持不變,可能會影響短文本的性能。建議僅在需要處理長上下文時添加{ ..., "rope_scaling": { "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" } }
rope_scaling
配置。
評估與性能
詳細的評估結果請參考📑 博客。 有關GPU內存要求和相應吞吐量的結果,請參考此處。
🔧 技術細節
量化方法
- 動態精度分配:
- 前/後25%的層 → IQ4_XS(選定層)
- 中間50% → IQ2_XXS/IQ3_S(提高效率)
- 關鍵組件保護:
- 嵌入層/輸出層使用Q5_K
- 與標準1 - 2比特量化相比,誤差傳播減少38%
基準測試上下文
所有測試均在 Llama - 3 - 8B - Instruct 上進行,使用:
- 標準困惑度評估管道
- 2048標記的上下文窗口
- 所有量化方式使用相同的提示集
📄 許可證
本項目採用Apache - 2.0許可證,詳情請見許可證鏈接。
🚀 如果你覺得這些模型有用
❤ 如果你覺得這些模型有用,請點擊“點贊”!
幫助我測試我的支持量子安全檢查的AI網絡監控助手:
👉 免費網絡監控器
💬 測試方法:
- 點擊聊天圖標(任意頁面右下角)
- 選擇一個AI助手類型:
TurboLLM
(GPT - 4 - mini)FreeLLM
(開源)TestLLM
(僅支持CPU的實驗性模型)
測試內容
我正在探索用於AI網絡監控的小型開源模型的極限,具體包括:
- 針對即時網絡服務的函數調用
- 模型可以多小,同時仍能處理:
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成
🟡 TestLLM – 當前的實驗性模型(llama.cpp在6個CPU線程上運行):
- ✅ 零配置設置
- ⏳ 30秒加載時間(推理速度慢,但無API成本)
- 🔧 尋求幫助! 如果你對邊緣設備AI感興趣,讓我們一起合作!
其他助手
🟢 TurboLLM – 使用 gpt - 4 - mini 進行:
- 即時網絡診斷
- 自動化滲透測試 (Nmap/Metasploit)
- 🔑 通過下載我們的免費網絡監控代理獲取更多令牌
🔵 HugLLM – 開源模型(約80億參數):
- 比TurboLLM多2倍的令牌
- AI驅動的日誌分析
- 🌐 在Hugging Face推理API上運行
💡 用於測試的示例AI命令:
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
引用
如果您覺得我們的工作有幫助,請引用以下內容:
@misc{qwq32b,
title = {QwQ-32B: Embracing the Power of Reinforcement Learning},
url = {https://qwenlm.github.io/blog/qwq-32b/},
author = {Qwen Team},
month = {March},
year = {2025}
}
@article{qwen2.5,
title={Qwen2.5 Technical Report},
author={An Yang and Baosong Yang and Beichen Zhang and Binyuan Hui and Bo Zheng and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoran Wei and Huan Lin and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Yang and Jiaxi Yang and Jingren Zhou and Junyang Lin and Kai Dang and Keming Lu and Keqin Bao and Kexin Yang and Le Yu and Mei Li and Mingfeng Xue and Pei Zhang and Qin Zhu and Rui Men and Runji Lin and Tianhao Li and Tianyi Tang and Tingyu Xia and Xingzhang Ren and Xuancheng Ren and Yang Fan and Yang Su and Yichang Zhang and Yu Wan and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zihan Qiu},
journal={arXiv preprint arXiv:2412.15115},
year={2024}
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98