開源gemma-3-12b-it-GPTQ-4b-128g模型，減少磁盤與內存需求，部署更輕鬆

首頁

Gemma 3 12b It GPTQ 4b 128g

由ISTA-DASLab開發

該模型是對google/gemma-3-12b-it進行INT4量化的版本，通過GPTQ算法將參數從16比特降至4比特，顯著減少了磁盤空間和GPU內存需求。

圖像生成文本

Transformers

#INT4量化 #多模態對話 #高壓縮率

下載量 1,175

發布時間 : 4/11/2025

模型概述

基於Gemma-3-12b-it的INT4量化版本，適用於文本生成和多模態任務，保持了原模型大部分性能的同時顯著降低資源需求。

模型特點

高效INT4量化

採用GPTQ算法將參數從16比特降至4比特，減少約75%的存儲和內存需求。

性能保留

在OpenLLM基準測試中保持了原模型98.42%的性能表現。

多模態支持

支持圖像和文本的聯合處理，能夠理解並描述圖像內容。

模型能力

文本生成

圖像內容理解

多模態任務處理

對話系統

使用案例

內容生成

圖像描述生成

根據輸入圖像生成詳細描述

能準確識別圖像中的物體和場景並生成流暢描述

智能助手

多模態對話

結合圖像和文本輸入進行對話

能理解圖像內容並回答相關問題

🚀 gemma-3-12b-it-GPTQ-4b-128g

本項目是對gemma-3-12b-it模型進行量化處理得到的GPTQ模型，將模型權重量化為INT4數據類型，有效減少了磁盤空間和GPU內存需求。同時提供了模型評估結果、復現命令以及使用示例，方便用戶快速上手。

🚀 快速開始

安裝依賴

若要在transformers中使用該模型，需將包更新到Gemma3的穩定版本：
```
pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
```
若要在vLLM中使用該模型，需將包更新到此PR之後的版本。

推理示例

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "ISTA-DASLab/gemma-3-12b-it-GPTQ-4b-128g"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

✨ 主要特性

量化優化：將gemma-3-12b-it模型的權重量化為INT4數據類型，將每個參數的位數從16位減少到4位，磁盤大小和GPU內存需求約降低75%。
部分量化：僅對language_model變換器塊內的線性算子的權重進行量化，視覺模型和多模態投影保持原始精度。
量化方案：使用對稱分組方案進行權重量化，組大小為128，並應用GPTQ算法進行量化。
模型格式：模型檢查點以compressed_tensors格式保存。

📚 詳細文檔

模型概述

本模型是通過將gemma-3-12b-it的權重量化為INT4數據類型得到的。這種優化將每個參數的位數從16位減少到4位，使磁盤大小和GPU內存需求大約降低了75%。

僅對language_model變換器塊內的線性算子的權重進行量化，視覺模型和多模態投影保持原始精度。權重使用對稱分組方案進行量化，組大小為128，並應用GPTQ算法進行量化。

模型檢查點以compressed_tensors格式保存。

評估

本模型在OpenLLM v1基準測試中進行了評估，模型輸出使用vLLM引擎生成。

模型	ArcC	GSM8k	Hellaswag	MMLU	TruthfulQA-mc2	Winogrande	平均得分	恢復率
gemma-3-12b-it	0.7125	0.8719	0.8377	0.7230	0.5798	0.7893	0.7524	1.0000
gemma-3-12b-it-INT4 (本模型)	0.6988	0.8643	0.8254	0.7078	0.5638	0.7830	0.7405	0.9842

復現

可使用以下命令復現評估結果：

MODEL=ISTA-DASLab/gemma-3-12b-it-GPTQ-4b-128g
MODEL_ARGS="pretrained=$MODEL,max_model_len=4096,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.80"

lm_eval \
  --model vllm \
  --model_args $MODEL_ARGS \
  --tasks openllm \
  --batch_size auto