Qwq 32B NF4
这是Qwen/QwQ-32B模型的4位量化版本,通过BitsAndBytes库进行优化,适用于资源受限环境下的文本生成任务。
下载量 150
发布时间 : 3/21/2025
模型简介
该模型是原始Qwen/QwQ-32B的量化版本,主要用于英语文本生成任务,采用Apache 2.0许可证发布。
模型特点
4位量化
使用BitsAndBytes库进行int4量化,显著减少模型内存占用。
高效推理
优化后的模型在保持性能的同时,提高了推理效率。
双重量化
采用双重量化技术进一步压缩模型大小。
模型能力
英语文本生成
聊天对话
使用案例
对话系统
智能聊天机器人
构建英语聊天机器人,提供自然流畅的对话体验。
内容生成
英语文本创作
自动生成英语文章、故事或其他文本内容。
🚀 Qwen/QwQ-32B(量化版)
本项目是Qwen/QwQ-32B模型的量化版本,通过量化技术在保持一定性能的同时,减少模型的存储和计算资源需求,提升推理效率。
🚀 快速开始
以下是一个使用 apply_chat_template
加载分词器和模型并生成内容的代码片段:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "Qwen/QwQ-32B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many r's are in the word \"strawberry\""
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主要特性
- 量化版本:本模型是原始
Qwen/QwQ-32B
模型的量化版本,使用BitsAndBytes
库将其量化为4位。 - 高性能推理:QwQ是通义系列的推理模型,相比传统的指令调优模型,具有思考和推理能力,在下游任务尤其是难题上表现出色。
- 长上下文支持:支持完整的131,072个标记的上下文长度。
📦 安装指南
QwQ基于Qwen2.5,其代码已集成在最新的Hugging face transformers
中。建议使用最新版本的 transformers
,使用 transformers<4.37.0
会遇到以下错误:
KeyError: 'qwen2'
📚 详细文档
模型信息
属性 | 详情 |
---|---|
基础模型 | Qwen/QwQ-32B |
许可证 | apache-2.0 |
许可证链接 | https://huggingface.co/Qwen/QWQ-32B/blob/main/LICENSE |
语言 | en |
任务类型 | 文本生成 |
标签 | bnb-my-repo, chat |
库名称 | transformers |
量化详情
- 量化类型:int4
- bnb_4bit_quant_type:nf4
- bnb_4bit_use_double_quant:True
- bnb_4bit_compute_dtype:bfloat16
- bnb_4bit_quant_storage:uint8
模型介绍
QwQ是通义系列的推理模型,QwQ-32B是中型推理模型,能够与最先进的推理模型(如DeepSeek-R1、o1-mini)相媲美。本仓库包含QwQ 32B模型,具有以下特点:
- 类型:因果语言模型
- 训练阶段:预训练和后训练(监督微调与强化学习)
- 架构:采用RoPE、SwiGLU、RMSNorm和注意力QKV偏置的transformers架构
- 参数数量:325亿
- 非嵌入参数数量:310亿
- 层数:64
- 注意力头数量(GQA):Q为40,KV为8
- 上下文长度:完整的131,072个标记
- 对于长度超过8,192个标记的提示,必须按照本节所述启用YaRN。
使用指南
为了获得最佳体验,请在部署QwQ模型之前查看使用指南。可以尝试我们的演示或通过QwenChat访问QwQ模型。更多详细信息,请参考我们的博客、GitHub和文档。
使用指南
为了达到最佳性能,建议进行以下设置:
- 确保深思熟虑的输出:确保模型以"<think>\n"开头,以防止生成空洞的思考内容,从而降低输出质量。如果使用
apply_chat_template
并将add_generation_prompt
设置为True
,则此功能已自动实现,但可能会导致响应开头缺少 <think> 标签,这是正常现象。 - 采样参数:
- 使用 Temperature=0.6、TopP=0.95、MinP=0 代替贪心解码,以避免无限重复。
- 使用20到40之间的TopK来过滤掉罕见的标记出现,同时保持生成输出的多样性。
- 对于支持的框架,可以将
presence_penalty
参数调整为0到2之间,以减少无限重复。但是,使用较高的值可能会导致偶尔出现语言混合和性能略有下降。
- 历史记录中无思考内容:在多轮对话中,历史模型输出应仅包括最终输出部分,无需包括思考内容。此功能已在
apply_chat_template
中实现。 - 标准化输出格式:建议在进行基准测试时使用提示来标准化模型输出:
- 数学问题:在提示中包含 "请逐步推理,并将最终答案放在 \boxed{} 内。"
- 多项选择题:在提示中添加以下JSON结构以标准化响应:"请在
answer
字段中仅使用选项字母显示您的选择,例如\"answer\": \"C\"
。"
- 处理长输入:对于长度超过8,192个标记的输入,启用 YaRN 以提高模型有效捕获长序列信息的能力。
对于支持的框架,可以在
config.json
中添加以下内容以启用YaRN:
对于部署,建议使用vLLM。如果不熟悉vLLM,请参考我们的文档。目前,vLLM仅支持静态YARN,这意味着缩放因子无论输入长度如何都保持不变,可能会影响短文本的性能。建议仅在需要处理长上下文时添加{ ..., "rope_scaling": { "factor": 4.0, "original_max_position_embeddings": 32768, "type": "yarn" } }
rope_scaling
配置。
评估与性能
详细的评估结果请参考此博客。有关GPU内存要求和相应吞吐量的信息,请参阅此处的结果。
引用
如果您觉得我们的工作有帮助,请引用以下内容:
@misc{qwq32b,
title = {QwQ-32B: Embracing the Power of Reinforcement Learning},
url = {https://qwenlm.github.io/blog/qwq-32b/},
author = {Qwen Team},
month = {March},
year = {2025}
}
@article{qwen2.5,
title={Qwen2.5 Technical Report},
author={An Yang and Baosong Yang and Beichen Zhang and Binyuan Hui and Bo Zheng and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoran Wei and Huan Lin and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Yang and Jiaxi Yang and Jingren Zhou and Junyang Lin and Kai Dang and Keming Lu and Keqin Bao and Kexin Yang and Le Yu and Mei Li and Mingfeng Xue and Pei Zhang and Qin Zhu and Rui Men and Runji Lin and Tianhao Li and Tianyi Tang and Tingyu Xia and Xingzhang Ren and Xuancheng Ren and Yang Fan and Yang Su and Yichang Zhang and Yu Wan and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zihan Qiu},
journal={arXiv preprint arXiv:2412.15115},
year={2024}
}
⚠️ 重要提示
为获得最佳体验,请在部署QwQ模型之前查看使用指南。
💡 使用建议
建议使用最新版本的
transformers
,使用transformers<4.37.0
会遇到KeyError: 'qwen2'
错误。
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98