GLM-4-32B-0414量化模型 - 開源適配消費級硬件，免費部署輕鬆用

首頁

GLM 4 32B 0414.w4a16 Gptq

由mratsim開發

這是一個使用GPTQ方法對GLM-4-32B-0414進行4位量化的模型，適用於消費級硬件。

大型語言模型

Safetensors

開源協議:MIT #4位量化推理 #消費級硬件適配 #長文本生成

下載量 785

發布時間 : 5/4/2025

模型概述

該模型通過非對稱GPTQ量化技術將GLM-4-32B-0414量化為4位（僅權重4位，W4A16），使其能夠在消費級硬件上運行。

模型特點

4位量化

使用非對稱GPTQ將模型量化為4位，顯著減少顯存佔用。

消費級硬件適配

量化後的模型可以在32GB顯存的GPU上運行。

高質量校準

使用2048個最大序列長度為4096的樣本進行校準，最小化過擬合風險。

模型能力

文本生成

長序列處理

使用案例

文本生成

長文本生成

支持最大130000 tokens的長文本生成。

🚀 GLM-4-32B-0414使用GPTQ進行4位量化（僅權重4位，W4A16）

本項目包含使用非對稱GPTQ將GLM-4-32B-0414量化為4位的模型，使其適用於消費級硬件。該模型使用來自數據集mit-han-lab/pile-val-backup的2048個最大序列長度為4096的樣本進行校準。這是我第一個量化模型，歡迎大家提出建議。選擇2048/4096而不是默認的512/2048是為了最小化過擬合風險並最大化收斂性，同時它們也能適配我的GPU。

🚀 快速開始

本模型已使用vLLM進行測試，以下是適用於32GB顯存GPU的腳本：

export MODEL="mratsim/GLM-4-32B-0414.w4a16-gptq"
vllm serve "${MODEL}" \
  --served-model-name glm-4-32b \
  --gpu-memory-utilization 0.90 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --max-model-len 130000 \
  --max_num_seqs 256 \
  --generation-config "${MODEL}" \
  --enable-auto-tool-choice --tool-call-parser pythonic \
  --rope-scaling '{"rope_type":"yarn","factor":4.0,"original_max_position_embeddings":32768}'

✨ 主要特性

量化適配：使用非對稱GPTQ將GLM-4-32B-0414量化為4位，適配消費級硬件。
樣本校準：使用來自數據集mit-han-lab/pile-val-backup的2048個最大序列長度為4096的樣本進行校準。

🔧 技術細節

量化方法

使用llmcompressor庫進行非對稱GPTQ量化，具體配置如下：

default_stage:
  default_modifiers:
    GPTQModifier:
      dampening_frac: 0.005
      config_groups:
        group_0:
          targets: [Linear]
          weights: {num_bits: 4, type: int, symmetric: false, group_size: 128, strategy: group,
            dynamic: false, observer: minmax}
      ignore: [lm_head]

並在來自數據集mit-han-lab/pile-val-backup的2048個樣本、序列長度為4096的數據上進行校準。

📄 許可證

本項目採用MIT許可證。

📦 模型信息

屬性	詳情
基礎模型	THUDM/GLM-4-32B-0414
訓練數據	mit-han-lab/pile-val-backup
模型類型	文本生成
標籤	gptq、vllm、llmcompressor、text-generation-inference