QwQ-32B-NF4开源文本生成模型 - 免费部署适用资源受限环境

首页

Qwq 32B NF4

由 ginipick 开发

这是Qwen/QwQ-32B模型的4位量化版本，通过BitsAndBytes库进行优化，适用于资源受限环境下的文本生成任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #4位量化 #大语言模型 #文本生成

下载量 150

发布时间 : 3/21/2025

模型简介

该模型是原始Qwen/QwQ-32B的量化版本，主要用于英语文本生成任务，采用Apache 2.0许可证发布。

模型特点

4位量化

使用BitsAndBytes库进行int4量化，显著减少模型内存占用。

高效推理

优化后的模型在保持性能的同时，提高了推理效率。

双重量化

采用双重量化技术进一步压缩模型大小。

模型能力

英语文本生成

聊天对话

使用案例

对话系统

智能聊天机器人

构建英语聊天机器人，提供自然流畅的对话体验。

内容生成

英语文本创作

自动生成英语文章、故事或其他文本内容。

🚀 Qwen/QwQ-32B（量化版）

本项目是Qwen/QwQ-32B模型的量化版本，通过量化技术在保持一定性能的同时，减少模型的存储和计算资源需求，提升推理效率。

🚀 快速开始

以下是一个使用 apply_chat_template 加载分词器和模型并生成内容的代码片段：

from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "Qwen/QwQ-32B"

model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

prompt = "How many r's are in the word \"strawberry\""
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

✨ 主要特性

量化版本：本模型是原始 Qwen/QwQ-32B 模型的量化版本，使用 BitsAndBytes 库将其量化为4位。
高性能推理：QwQ是通义系列的推理模型，相比传统的指令调优模型，具有思考和推理能力，在下游任务尤其是难题上表现出色。
长上下文支持：支持完整的131,072个标记的上下文长度。

📦 安装指南

QwQ基于Qwen2.5，其代码已集成在最新的Hugging face transformers 中。建议使用最新版本的 transformers，使用 transformers<4.37.0 会遇到以下错误：

KeyError: 'qwen2'

📚 详细文档

模型信息

属性	详情
基础模型	Qwen/QwQ-32B
许可证	apache-2.0
许可证链接	https://huggingface.co/Qwen/QWQ-32B/blob/main/LICENSE
语言	en
任务类型	文本生成
标签	bnb-my-repo, chat
库名称	transformers

量化详情

量化类型：int4
bnb_4bit_quant_type：nf4
bnb_4bit_use_double_quant：True
bnb_4bit_compute_dtype：bfloat16
bnb_4bit_quant_storage：uint8

模型介绍

QwQ是通义系列的推理模型，QwQ-32B是中型推理模型，能够与最先进的推理模型（如DeepSeek-R1、o1-mini）相媲美。本仓库包含QwQ 32B模型，具有以下特点：

类型：因果语言模型
训练阶段：预训练和后训练（监督微调与强化学习）
架构：采用RoPE、SwiGLU、RMSNorm和注意力QKV偏置的transformers架构
参数数量：325亿
非嵌入参数数量：310亿
层数：64
注意力头数量（GQA）：Q为40，KV为8
上下文长度：完整的131,072个标记
- 对于长度超过8,192个标记的提示，必须按照本节所述启用YaRN。

使用指南

为了获得最佳体验，请在部署QwQ模型之前查看使用指南。可以尝试我们的演示或通过QwenChat访问QwQ模型。更多详细信息，请参考我们的博客、GitHub和文档。

使用指南

为了达到最佳性能，建议进行以下设置：

确保深思熟虑的输出：确保模型以"<think>\n"开头，以防止生成空洞的思考内容，从而降低输出质量。如果使用 apply_chat_template 并将 add_generation_prompt 设置为 True，则此功能已自动实现，但可能会导致响应开头缺少 <think> 标签，这是正常现象。
采样参数：
- 使用 Temperature=0.6、TopP=0.95、MinP=0 代替贪心解码，以避免无限重复。
- 使用20到40之间的TopK来过滤掉罕见的标记出现，同时保持生成输出的多样性。
- 对于支持的框架，可以将 presence_penalty 参数调整为0到2之间，以减少无限重复。但是，使用较高的值可能会导致偶尔出现语言混合和性能略有下降。
历史记录中无思考内容：在多轮对话中，历史模型输出应仅包括最终输出部分，无需包括思考内容。此功能已在 apply_chat_template 中实现。
标准化输出格式：建议在进行基准测试时使用提示来标准化模型输出：
- 数学问题：在提示中包含 "请逐步推理，并将最终答案放在 \boxed{} 内。"
- 多项选择题：在提示中添加以下JSON结构以标准化响应："请在 answer 字段中仅使用选项字母显示您的选择，例如 \"answer\": \"C\"。"
处理长输入：对于长度超过8,192个标记的输入，启用 YaRN 以提高模型有效捕获长序列信息的能力。对于支持的框架，可以在 config.json 中添加以下内容以启用YaRN：
```
{
...,
"rope_scaling": {
    "factor": 4.0,
    "original_max_position_embeddings": 32768,
    "type": "yarn"
}
}
```
对于部署，建议使用vLLM。如果不熟悉vLLM，请参考我们的文档。目前，vLLM仅支持静态YARN，这意味着缩放因子无论输入长度如何都保持不变，可能会影响短文本的性能。建议仅在需要处理长上下文时添加 rope_scaling 配置。

评估与性能

详细的评估结果请参考此博客。有关GPU内存要求和相应吞吐量的信息，请参阅此处的结果。

引用

如果您觉得我们的工作有帮助，请引用以下内容：

@misc{qwq32b,
    title = {QwQ-32B: Embracing the Power of Reinforcement Learning},
    url = {https://qwenlm.github.io/blog/qwq-32b/},
    author = {Qwen Team},
    month = {March},
    year = {2025}
}

@article{qwen2.5,
      title={Qwen2.5 Technical Report}, 
      author={An Yang and Baosong Yang and Beichen Zhang and Binyuan Hui and Bo Zheng and Bowen Yu and Chengyuan Li and Dayiheng Liu and Fei Huang and Haoran Wei and Huan Lin and Jian Yang and Jianhong Tu and Jianwei Zhang and Jianxin Yang and Jiaxi Yang and Jingren Zhou and Junyang Lin and Kai Dang and Keming Lu and Keqin Bao and Kexin Yang and Le Yu and Mei Li and Mingfeng Xue and Pei Zhang and Qin Zhu and Rui Men and Runji Lin and Tianhao Li and Tianyi Tang and Tingyu Xia and Xingzhang Ren and Xuancheng Ren and Yang Fan and Yang Su and Yichang Zhang and Yu Wan and Yuqiong Liu and Zeyu Cui and Zhenru Zhang and Zihan Qiu},
      journal={arXiv preprint arXiv:2412.15115},
      year={2024}
}