オープンソースのgemma-3-12b-it-GPTQ-4b-128gモデルは、ディスクとメモリの要件を削減し、デプロイをより簡単にします。

ホーム

Gemma 3 12b It GPTQ 4b 128g

ISTA-DASLabによって開発

このモデルはgoogle/gemma-3-12b-itをINT4量子化したバージョンで、GPTQアルゴリズムによりパラメータを16ビットから4ビットに削減し、ディスク容量とGPUメモリ要件を大幅に削減しました。

画像生成テキスト

Transformers

#INT4量子化 #マルチモーダル対話 #高圧縮率

ダウンロード数 1,175

リリース時間 : 4/11/2025

モデル概要

Gemma-3-12b-itをベースにしたINT4量子化バージョンで、テキスト生成やマルチモーダルタスクに適しており、元のモデルの性能を大部分維持しながらリソース要件を大幅に低減しています。

モデル特徴

効率的なINT4量子化

GPTQアルゴリズムによりパラメータを16ビットから4ビットに削減し、ストレージとメモリ要件を約75%削減。

性能維持

OpenLLMベンチマークで元のモデルの98.42%の性能を維持。

マルチモーダルサポート

画像とテキストの統合処理をサポートし、画像内容を理解して説明できます。

モデル能力

テキスト生成

画像内容理解

マルチモーダルタスク処理

対話システム

使用事例

コンテンツ生成

画像キャプション生成

入力画像に基づいて詳細な説明を生成

画像内の物体やシーンを正確に識別し、流暢な説明を生成可能

インテリジェントアシスタント

マルチモーダル対話

画像とテキスト入力を組み合わせた対話

画像内容を理解し関連質問に回答可能

🚀 gemma-3-12b-it-GPTQ-4b-128g

このモデルは、画像とテキストを入力としてテキストを出力するモデルです。gemma-3-12b-it の重みをINT4データ型に量子化することで得られました。この最適化により、パラメータあたりのビット数が16から4に減少し、ディスクサイズとGPUメモリ要件が約75％削減されます。

✨ 主な機能

モデル概要

このモデルは、gemma-3-12b-it の重みをINT4データ型に量子化することで得られました。この最適化により、パラメータあたりのビット数が16から4に減少し、ディスクサイズとGPUメモリ要件が約75％削減されます。

language_model トランスフォーマーブロック内の線形演算子の重みのみが量子化されます。ビジョンモデルとマルチモーダル投影は元の精度のままです。重みは、グループサイズ128の対称的なパーグループ方式を使用して量子化されます。量子化にはGPTQアルゴリズムが適用されます。

モデルチェックポイントは compressed_tensors 形式で保存されます。

評価

このモデルは、OpenLLM v1ベンチマークで評価されました。モデルの出力は vLLM エンジンで生成されました。

モデル	ArcC	GSM8k	Hellaswag	MMLU	TruthfulQA-mc2	Winogrande	平均	回復率
gemma-3-12b-it	0.7125	0.8719	0.8377	0.7230	0.5798	0.7893	0.7524	1.0000
gemma-3-12b-it-INT4 (このモデル)	0.6988	0.8643	0.8254	0.7078	0.5638	0.7830	0.7405	0.9842

再現方法

結果は、以下のコマンドを使用して得られました。

MODEL=ISTA-DASLab/gemma-3-12b-it-GPTQ-4b-128g
MODEL_ARGS="pretrained=$MODEL,max_model_len=4096,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.80"

lm_eval \
  --model vllm \
  --model_args $MODEL_ARGS \
  --tasks openllm \
  --batch_size auto

使用方法

transformers でこのモデルを使用するには、パッケージをGemma3の安定リリースに更新してください。

pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
vLLM でこのモデルを使用するには、パッケージをこの PR 以降のバージョンに更新してください。

以下に、transformers を介した推論の例を示します。

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "ISTA-DASLab/gemma-3-12b-it-GPTQ-4b-128g"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.