gemma-3-27b-it-GPTQ-4b-128g开源AI模型 - 减少内存需求，高效部署使用

首页

Gemma 3 27b It GPTQ 4b 128g

由 ISTA-DASLab 开发

该模型是对gemma-3-27b-it进行INT4量化的版本，通过减少每个参数的比特数来降低磁盘和GPU内存需求。

图像生成文本

Transformers

#INT4量化 #多模态理解 #高效推理

下载量 32.15k

发布时间 : 3/14/2025

模型简介

通过对gemma-3-27b-it的权重进行INT4量化获得，优化了磁盘占用和GPU内存需求，同时保持了较高的性能保留率。

模型特点

INT4量化

将每个参数的比特数从16降至4，显著减少磁盘占用和GPU内存需求。

性能保留率高

在OpenLLM v1基准测试中，性能保留率达到99.44%。

多模态支持

支持图像和文本的联合处理，适用于多模态任务。

模型能力

文本生成

图像描述

多模态任务处理

使用案例

内容生成

图像描述生成

根据输入的图像生成详细的文字描述。

生成自然、准确的图像描述。

智能助手

多模态对话

结合图像和文本输入进行智能对话。

提供上下文相关的回答和建议。

🚀 gemma-3-27b-it-GPTQ-4b-128g

本项目是对gemma-3-27b-it模型进行量化处理后得到的模型，通过将权重量化为INT4数据类型，有效减少了磁盘空间和GPU内存需求，同时提供了模型评估结果、复现命令以及使用示例，方便用户使用和验证模型性能。

✨ 主要特性

量化优化：将gemma-3-27b-it模型的权重量化为INT4数据类型，每个参数的比特数从16位减少到4位，磁盘大小和GPU内存需求约降低75%。
部分量化：仅对language_model变压器块内的线性算子权重进行量化，视觉模型和多模态投影保持原始精度。
量化方案：采用对称分组方案进行权重量化，组大小为128，并应用GPTQ算法。
模型保存格式：模型检查点以compressed_tensors格式保存。

📚 详细文档

模型评估

本模型在OpenLLM v1基准测试中进行了评估，使用vLLM引擎生成模型输出。评估结果如下：

模型	ArcC	GSM8k	Hellaswag	MMLU	TruthfulQA - mc2	Winogrande	平均值	恢复率
gemma - 3 - 27b - it	0.7491	0.9181	0.8582	0.7742	0.6222	0.7908	0.7854	1.0000
gemma - 3 - 27b - it - INT4 (本模型)	0.7415	0.9174	0.8496	0.7662	0.6160	0.7956	0.7810	0.9944

结果复现

使用以下命令可复现上述评估结果：

MODEL=ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g
MODEL_ARGS="pretrained=$MODEL,max_model_len=4096,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.80"

lm_eval \
  --model vllm \
  --model_args $MODEL_ARGS \
  --tasks openllm \
  --batch_size auto

💻 使用示例

基础用法

若要在transformers中使用该模型，需将包更新到Gemma3的稳定版本：

pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

若要在vLLM中使用该模型，需将包更新到此PR之后的版本。

以下是通过transformers进行推理的示例代码：

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "ISTA-DASLab/gemma-3-27b-it-GPTQ-4b-128g"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.