Gemma 3-4b-it-int4-awqオープンソースマルチモーダルモデル - 画像とテキスト入力を無料で処理し、テキスト出力を生成

Home

Gemma 3 4b It Int4 Awq

Developed by gaunernst

GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。

テキスト生成画像

Transformers

#マルチモーダル理解 #128K長文コンテキスト #軽量デプロイ

Downloads 1,054

Release Time : 3/18/2025

Model Overview

Gemma 3モデルは事前学習と命令チューニングの2つのバリエーションを提供し、128Kの大規模コンテキストウィンドウを備え、140以上の言語をサポートしています。質問応答、要約、推論など、さまざまなテキスト生成や画像理解タスクに適しています。

Model Features

マルチモーダル能力

テキストと画像の入力を同時に処理し、テキスト出力を生成できる

大規模コンテキストウィンドウ

128Kトークンの入力コンテキストウィンドウをサポート

多言語サポート

140以上の言語の処理をサポート

軽量設計

比較的小さなモデルサイズにより、リソースが限られた環境でもデプロイ可能

Model Capabilities

テキスト生成

画像理解

多言語処理

質問応答システム

ドキュメント要約

論理的推論

Use Cases

コンテンツ生成

画像キャプション生成

入力画像に基づいて詳細な説明を生成

画像内の物体やシーンを正確に識別できる

ドキュメント要約

長文ドキュメントを自動要約

簡潔で正確な要約内容を生成

質問応答システム

画像に基づく質問応答

画像内容に関する質問に回答

画像内の要素を正しく識別し、質問に回答できる

知識質問応答

さまざまな分野の知識的な質問に回答

複数のベンチマークテストで優れたパフォーマンスを発揮

🚀 Gemma 3 4B Instruction-tuned INT4

このモデルは、使いやすさを考慮して、HF+AWQ形式に変換されたQAT INT4 Flaxチェックポイント（Kaggleから取得）です。ただし、量子化にはAWQは使用されていません。変換スクリプトconvert_flax.pyは、このモデルリポジトリ内で確認できます。

注意: このモデルは、https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b で公開されている公式のQAT INT4 GGUFとは異なります。

以下に、https://huggingface.co/google/gemma-3-4b-it の元のモデルカードを掲載します。

🚀 クイックスタート

まず、Gemma 3用に作成されたバージョンのTransformersライブラリをインストールします。

$ pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

次に、使用例に関連するセクションからコードスニペットをコピーして実行します。

✨ 主な機能

マルチモーダル処理: テキストと画像の入力を処理し、テキスト出力を生成できます。
広範な言語サポート: 140以上の言語をサポートしています。
大きなコンテキストウィンドウ: 4B、12B、27Bサイズの場合は128Kトークン、1Bサイズの場合は32Kトークンの入力コンテキストを扱えます。

📦 インストール

$ pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3

💻 使用例

基本的な使用法

`pipeline` APIを使った実行

pipelineで推論用のモデルとプロセッサを初期化するコード例です。

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3-4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16
)

命令調整済みモデルの場合、最初に入力を処理するためにチャットテンプレートを使用する必要があります。その後、パイプラインに渡すことができます。

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0][0]["generated_text"][-1]["content"])
# Okay, let's take a look! 
# Based on the image, the animal on the candy is a **turtle**. 
# You can see the shell shape and the head and legs.

単一/複数GPUでのモデルの実行

# pip install accelerate

from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3-4b-it"

model = Gemma3ForConditionalGeneration.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene, 
# focusing on a cluster of pink cosmos flowers and a busy bumblebee. 
# It has a slightly soft, natural feel, likely captured in daylight.

📚 ドキュメント

Gemma 3モデルカード

モデルページ: Gemma
リソースと技術ドキュメント:
利用規約: 利用規約
著者: Google DeepMind

モデル情報

説明

Gemmaは、Googleによる軽量で最先端のオープンモデルのファミリーで、Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習バリアントと命令調整バリアントの両方の重みが公開されています。Gemma 3は、大きな128Kのコンテキストウィンドウを持ち、140以上の言語の多言語サポートがあり、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなどの限られたリソースの環境にデプロイすることが可能で、最先端のAIモデルへのアクセスを民主化し、誰もが革新を促進するのに役立ちます。

入力と出力

入力	詳細
テキスト文字列	質問、プロンプト、または要約するドキュメントなど
画像	896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされた画像
入力コンテキスト	4B、12B、27Bサイズの場合は128Kトークン、1Bサイズの場合は32Kトークンの合計入力コンテキスト
出力	質問への回答、画像コンテンツの分析、ドキュメントの要約など、入力に応じて生成されたテキスト
出力コンテキスト	8192トークンの合計出力コンテキスト

モデルデータ

訓練データセット

これらのモデルは、幅広いソースを含むテキストデータのデータセットで訓練されました。27Bモデルは14兆トークンで、12Bモデルは12兆トークンで、4Bモデルは4兆トークンで、1Bモデルは2兆トークンで訓練されました。以下は主要な構成要素です。

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。訓練データセットには140以上の言語のコンテンツが含まれています。
コード: モデルにコードを接触させることで、プログラミング言語の構文とパターンを学習し、コードの生成とコード関連の質問の理解能力が向上します。
数学: 数学的なテキストで訓練することで、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対応できるようになります。
画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できるようになります。

データ前処理

訓練データに適用された主要なデータクリーニングとフィルタリング方法は以下の通りです。

CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待素材）フィルタリングが適用され、有害で違法なコンテンツが除外されました。
機密データフィルタリング: Gemmaの事前学習モデルを安全で信頼性の高いものにするための一環として、自動化された技術を使用して、訓練セットから特定の個人情報やその他の機密データをフィルタリングしました。
追加の方法: 当社のポリシーに沿ったコンテンツの品質と安全性に基づくフィルタリング。

実装情報

ハードウェア

Gemmaは、Tensor Processing Unit (TPU)ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して訓練されました。ビジョン言語モデル（VLM）を訓練するには、大量の計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この分野でいくつかの利点を備えています。

パフォーマンス: TPUは、VLMの訓練に関わる大量の計算を処理するように特別に設計されています。CPUと比較して、訓練を大幅に高速化することができます。
メモリ: TPUはしばしば大量の高帯域メモリを備えており、訓練中に大きなモデルとバッチサイズを扱うことができます。これにより、より良いモデル品質が得られる可能性があります。
スケーラビリティ: TPU Pod（TPUの大規模クラスター）は、大規模な基礎モデルの複雑さの増加に対応するためのスケーラブルなソリューションを提供します。複数のTPUデバイスに訓練を分散させることで、より高速で効率的な処理が可能になります。
コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模なモデルを訓練するためのコスト効率の高いソリューションを提供することができます。特に、高速な訓練によって節約される時間とリソースを考慮すると。
これらの利点は、Googleの持続可能な運用に対するコミットメントと一致しています。

ソフトウェア

訓練は、JAXとML Pathwaysを使用して行われました。 JAXにより、研究者はTPUなどの最新世代のハードウェアを活用して、大規模モデルをより高速で効率的に訓練することができます。ML Pathwaysは、複数のタスクにわたって一般化できる人工知能システムを構築するためのGoogleの最新の取り組みです。これは、このような大規模言語モデルを含む基礎モデルに特に適しています。一緒に、JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。"JaxとPathwaysの'シングルコントローラ'プログラミングモデルにより、単一のPythonプロセスがトレーニング実行全体を調整できるため、開発ワークフローが大幅に簡素化されます。"

評価

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面を網羅するために、多数の異なるデータセットと指標に対して評価されました。

推論と事実性

ベンチマーク	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3-5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理と安全性

評価アプローチ

当社の評価方法には、構造化された評価と、関連するコンテンツポリシーの内部レッドチーミングテストが含まれています。レッドチーミングは、それぞれ異なる目標と人間の評価指標を持ついくつかの異なるチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。

児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
コンテンツ安全: 嫌がらせ、暴力と残虐描写、ヘイトスピーチを含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
表現上の害: 偏見、ステレオタイプ、有害な関連付けまたは不正確さを含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「第三者による」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、過学習を防ぎ、結果が意思決定に役立つ能力を維持するために、プロンプトセットは保持されます。保証評価の結果は、リリースレビューの一環として当社の責任と安全性評議会に報告されます。

評価結果

安全性テストのすべての分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、表現上の害のカテゴリで大きな改善が見られました。すべてのテストは、モデルの能力と動作を評価するために、安全フィルターを使用せずに実施されました。テキスト対テキストおよび画像対テキストの両方で、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、以前のGemmaモデルの性能に比べて、根拠のない推論に関して著しい改善を示しました。当社の評価の制限は、英語のプロンプトのみが含まれていたことです。

使用方法と制限

想定される使用方法

オープンビジョン言語モデル（VLM）は、さまざまな産業や分野にわたって幅広いアプリケーションがあります。以下の潜在的な用途のリストは網羅的ではありません。このリストの目的は、モデルの作成者がモデルの訓練と開発の一環として考慮した可能な使用事例に関するコンテキスト情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、メール原稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: 顧客サービス、バーチャルアシスタント、またはインタラクティブアプリケーションの会話型インターフェイスを提供します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、視覚データを抽出、解釈、要約して、テキスト通信に使用することができます。
研究と教育
- 自然言語処理（NLP）とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基礎となります。
- 言語学習ツール: 対話型の言語学習体験をサポートし、文法の修正や練習問題を提供します。
- 知識探索: 研究者が大規模なテキストを探索し、要約を生成したり、特定のトピックに関する質問に答えたりするのを支援します。

制限

訓練データ
- 訓練データの品質と多様性は、モデルの能力に大きく影響します。訓練データの偏りやギャップは、モデルの応答に制限をもたらす可能性があります。
- 訓練データセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクでより得意です。オープンエンドまたは非常に複雑なタスクは困難になる可能性があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります（ある程度まで、より長いコンテキストは一般により良い出力につながります）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
事実の正確性
- モデルは、訓練データセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が不足している可能性があります。

倫理的考慮事項とリスク

ビジョン言語モデル（VLM）の開発には、いくつかの倫理的な懸念が生じます。オープンモデルを作成する際に、以下の点を慎重に考慮しました。

偏見と公正性
- 大規模な実世界のテキストと画像データで訓練されたVLMは、訓練材料に埋め込まれた社会文化的な偏見を反映する可能性があります。これらのモデルは、慎重な精査を受け、入力データの前処理と、このカードで報告された事後評価を行いました。
誤情報と悪用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されています。詳細については、Responsible Generative AIツールキットを参照してください。
透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、機能、制限、および評価プロセスに関する詳細をまとめています。
- 責任ある方法で開発されたオープンモデルは、AIエコシステム全体の開発者や研究者にVLM技術を提供することで、革新を共有する機会を提供します。

特定されたリスクと緩和策:

偏見の永続化: モデルの訓練、微調整、およびその他の使用事例で、評価指標や人間のレビューを使用した継続的なモニタリングと、バイアス除去技術の探索を行うことが推奨されます。
有害なコンテンツの生成: コンテンツの安全性に関するメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用事例に基づいて、適切なコンテンツ安全対策を実装するように注意を払うことが推奨されます。
悪意のある目的での悪用: 技術的な制限と、開発者およびエンドユーザーへの教育は、VLMの悪意のある使用を緩和するのに役立ちます。ユーザーが誤用を報告するための教育資源と報告メカニズムが提供されています。Gemmaモデルの禁止された使用については、Gemma禁止使用ポリシーに記載されています。
プライバシー侵害: モデルは、特定の個人情報やその他の機密データが除去されるようにフィルタリングされたデータで訓練されました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。

利点

リリース時点で、このモデルファミリーは、同サイズのモデルと比較して、責任あるAI開発のために設計された高性能のオープンビジョン言語モデルの実装を提供します。このドキュメントで説明されているベンチマーク評価指標を使用すると、これらのモデルは、同サイズの他のオープンモデルの代替品と比較して、優れたパフォーマンスを示しています。

🔧 技術詳細

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

📄 ライセンス

Gemma 3 4B Instruction-tuned INT4のライセンスはgemmaです。Hugging FaceでGemmaにアクセスするには、Googleの使用許諾契約を確認して同意する必要があります。これを行うには、Hugging Faceにログインして、ライセンスを承認するをクリックしてください。リクエストは即時処理されます。