QwQ-32B-gptqmodel-4bit-vortex-v1开源大语言模型 - 高效免费完成文本生成任务

首页

Qwq 32B Gptqmodel 4bit Vortex V1

由 ModelCloud 开发

QwQ-32B是基于Qwen2架构的32B参数大语言模型，经过GPTQ方法4位整型量化处理，适用于高效文本生成任务。

大型语言模型

Safetensors

英语开源协议:Apache-2.0 #4位GPTQ量化 #高效文本生成 #指令微调优化

下载量 1,620

发布时间 : 3/7/2025

模型简介

本模型是Qwen/QwQ-32B的4位整型GPTQ量化版本，专注于对话和指令跟随任务，通过量化技术降低硬件需求同时保持较高性能。

模型特点

高效4位量化

采用GPTQ方法实现4位整型量化，显著降低显存占用和计算资源需求

优化推理效率

启用真序处理和对称量化技术，提升推理速度

对话优化

经过指令微调，特别适合对话交互场景

模型能力

文本生成

对话交互

指令跟随

使用案例

智能对话

问答系统

构建高效的知识问答机器人

在有限硬件资源下实现流畅对话体验

内容生成

文本创作辅助

辅助用户进行创意写作或内容生成

🚀 QwQ-32B量化模型

本项目是基于GPTQ技术对Qwen/QwQ-32B模型进行量化后的成果，可用于文本生成任务，在降低模型存储和计算成本的同时，保持了较好的性能。

🚀 快速开始

环境准备

确保你已经安装了必要的库，如transformers和gptqmodel。

代码示例

from transformers import AutoTokenizer
from gptqmodel import GPTQModel

tokenizer = AutoTokenizer.from_pretrained("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")
model = GPTQModel.load("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")

messages = [
    {"role": "user", "content": "How many r's are in the word \"strawberry\""},
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(input_ids=input_tensor.to(model.device), max_new_tokens=512)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)

print(result)

✨ 主要特性

量化技术：使用GPTQModel进行量化，将模型量化为4位，有效降低存储和计算成本。
多参数配置：支持多种量化参数配置，如group_size、desc_act等，可根据需求进行调整。

📦 安装指南

暂未提供相关安装步骤，你可以根据transformers和gptqmodel的官方文档进行安装。

💻 使用示例

基础用法

from transformers import AutoTokenizer
from gptqmodel import GPTQModel

tokenizer = AutoTokenizer.from_pretrained("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")
model = GPTQModel.load("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")

messages = [
    {"role": "user", "content": "How many r's are in the word \"strawberry\""},
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(input_ids=input_tensor.to(model.device), max_new_tokens=512)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)

print(result)

高级用法

目前暂未提供高级用法示例，你可以根据实际需求对代码进行扩展。

📚 详细文档

模型信息

属性	详情
基础模型	Qwen/QwQ-32B
任务类型	文本生成
标签	gptqmodel、modelcloud、chat、qwen2、qwq、instruct、int4、gptq、4bit

量化参数

参数	值
量化位数	4
动态量化	null
分组大小	32
激活描述	true
静态分组	false
对称量化	true
语言模型头量化	false
真正顺序量化	true
量化方法	gptq
检查点格式	gptq