QwQ-32B-gptqmodel-4bit-vortex-v1開源大語言模型 - 高效免費完成文本生成任務

首頁

Qwq 32B Gptqmodel 4bit Vortex V1

由ModelCloud開發

QwQ-32B是基於Qwen2架構的32B參數大語言模型，經過GPTQ方法4位整型量化處理，適用於高效文本生成任務。

大型語言模型

Safetensors

英語開源協議:Apache-2.0 #4位GPTQ量化 #高效文本生成 #指令微調優化

下載量 1,620

發布時間 : 3/7/2025

模型概述

本模型是Qwen/QwQ-32B的4位整型GPTQ量化版本，專注於對話和指令跟隨任務，通過量化技術降低硬件需求同時保持較高性能。

模型特點

高效4位量化

採用GPTQ方法實現4位整型量化，顯著降低顯存佔用和計算資源需求

優化推理效率

啟用真序處理和對稱量化技術，提升推理速度

對話優化

經過指令微調，特別適合對話交互場景

模型能力

文本生成

對話交互

指令跟隨

使用案例

智能對話

問答系統

構建高效的知識問答機器人

在有限硬件資源下實現流暢對話體驗

內容生成

文本創作輔助

輔助用戶進行創意寫作或內容生成

🚀 QwQ-32B量化模型

本項目是基於GPTQ技術對Qwen/QwQ-32B模型進行量化後的成果，可用於文本生成任務，在降低模型存儲和計算成本的同時，保持了較好的性能。

🚀 快速開始

環境準備

確保你已經安裝了必要的庫，如transformers和gptqmodel。

代碼示例

from transformers import AutoTokenizer
from gptqmodel import GPTQModel

tokenizer = AutoTokenizer.from_pretrained("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")
model = GPTQModel.load("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")

messages = [
    {"role": "user", "content": "How many r's are in the word \"strawberry\""},
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(input_ids=input_tensor.to(model.device), max_new_tokens=512)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)

print(result)

✨ 主要特性

量化技術：使用GPTQModel進行量化，將模型量化為4位，有效降低存儲和計算成本。
多參數配置：支持多種量化參數配置，如group_size、desc_act等，可根據需求進行調整。

📦 安裝指南

暫未提供相關安裝步驟，你可以根據transformers和gptqmodel的官方文檔進行安裝。

💻 使用示例

基礎用法

from transformers import AutoTokenizer
from gptqmodel import GPTQModel

tokenizer = AutoTokenizer.from_pretrained("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")
model = GPTQModel.load("ModelCloud/QwQ-32B-gptqmodel-4bit-vortex-v1")

messages = [
    {"role": "user", "content": "How many r's are in the word \"strawberry\""},
]
input_tensor = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(input_ids=input_tensor.to(model.device), max_new_tokens=512)
result = tokenizer.decode(outputs[0][input_tensor.shape[1]:], skip_special_tokens=True)

print(result)

高級用法

目前暫未提供高級用法示例，你可以根據實際需求對代碼進行擴展。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	Qwen/QwQ-32B
任務類型	文本生成
標籤	gptqmodel、modelcloud、chat、qwen2、qwq、instruct、int4、gptq、4bit

量化參數

參數	值
量化位數	4
動態量化	null
分組大小	32
激活描述	true
靜態分組	false
對稱量化	true
語言模型頭量化	false
真正順序量化	true
量化方法	gptq
檢查點格式	gptq