モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3 12B Instruction-tuned INT4
このモデルは、使いやすさを重視して、KaggleからのQAT INT4 FlaxチェックポイントをHF+AWQ形式に変換したものです。ただし、量子化にはAWQは使用されておらず、変換スクリプト convert_flax.py
はこのモデルレポジトリに保存されています。
注意: このモデルは、https://huggingface.co/collections/google/gemma-3-qat-67ee61ccacbf2be4195c265b で公開されている公式のQAT INT4 GGUFとは異なります。
以下に、https://huggingface.co/google/gemma-3-12b-it からの元のモデルカードを掲載します。
🚀 クイックスタート
モデル情報
Gemmaは、Googleによる軽量で最先端のオープンモデルのファミリーです。Geminiモデルを作成するために使用された同じ研究と技術を基に構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習バリアントと命令微調整バリアントの両方のオープンウェイトがあります。Gemma 3は、大きな128Kコンテキストウィンドウを持ち、140言語以上の多言語サポートがあり、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ノートパソコンやデスクトップ、独自のクラウドインフラストラクチャなどのリソースが限られた環境でもデプロイでき、最先端のAIモデルへのアクセスを民主化し、誰もがイノベーションを促進できるようにします。
入力と出力
-
入力:
- 質問、プロンプト、要約するドキュメントなどのテキスト文字列
- 896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズの場合は合計128Kトークンの入力コンテキスト、1Bサイズの場合は32Kトークン
-
出力:
- 質問への回答、画像コンテンツの分析、ドキュメントの要約など、入力に対する生成テキスト
- 最大8192トークンの出力コンテキスト
使い方
まず、Gemma 3用に作成されたバージョンのTransformersライブラリをインストールします。
$ pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
次に、あなたのユースケースに関連するセクションからスニペットをコピーします。
pipeline
APIを使用して実行する
pipeline
で推論用のモデルとプロセッサを初期化するには、次のようにします。
from transformers import pipeline
import torch
pipe = pipeline(
"画像-テキストからテキスト",
model="google/gemma-3-12b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
命令微調整モデルの場合、まず入力をチャットテンプレートで処理する必要があります。その後、パイプラインに渡すことができます。
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは役立つアシスタントです。"}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "キャンディに描かれている動物は何ですか?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0][0]["generated_text"][-1]["content"])
# わかりました、見てみましょう!
# 画像を見る限り、キャンディに描かれている動物は **カメ** です。
# 甲羅の形や頭と脚が見えます。
シングル/マルチGPUでモデルを実行する
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-12b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは役立つアシスタントです。"}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "この画像を詳細に説明してください。"}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **全体的な印象:** この画像は、鮮やかな庭の景色のクローズアップ写真で、
# ピンク色のコスモスの花の集まりと忙しいマルハナバチに焦点が当てられています。
# やや柔らかい自然な雰囲気があり、おそらく昼間に撮影されたものです。
✨ 主な機能
- マルチモーダル処理: テキストと画像の入力を処理し、テキスト出力を生成できます。
- 多言語サポート: 140言語以上の多言語サポートがあります。
- 大きなコンテキストウィンドウ: 128Kコンテキストウィンドウを持ち、長い入力に対応できます。
- 多様なタスク対応: 質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。
- リソース制限環境でのデプロイ: 比較的小さなサイズのため、ノートパソコンやデスクトップ、独自のクラウドインフラストラクチャなどのリソースが限られた環境でもデプロイできます。
📦 インストール
Gemma 3用に作成されたバージョンのTransformersライブラリをインストールするには、以下のコマンドを実行します。
$ pip install git+https://github.com/huggingface/transformers@v4.49.0-Gemma-3
💻 使用例
基本的な使用法
from transformers import pipeline
import torch
pipe = pipeline(
"画像-テキストからテキスト",
model="google/gemma-3-12b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは役立つアシスタントです。"}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "キャンディに描かれている動物は何ですか?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0][0]["generated_text"][-1]["content"])
高度な使用法
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-12b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "あなたは役立つアシスタントです。"}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "この画像を詳細に説明してください。"}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
📚 ドキュメント
モデルページ
リソースと技術文書
利用規約
作成者
Google DeepMind
🔧 技術詳細
モデルデータ
学習データセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットで学習されました。27Bモデルは14兆トークンで学習され、12Bモデルは12兆トークンで学習され、4Bモデルは4兆トークンで学習され、1Bモデルは2兆トークンで学習されました。主な構成要素は次のとおりです。
- ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。学習データセットには140言語以上のコンテンツが含まれています。
- コード: モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コードの生成とコード関連の質問の理解能力が向上します。
- 数学: 数学的なテキストで学習することで、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対処できるようになります。
- 画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。
データ前処理
学習データに適用された主要なデータクリーニングとフィルタリング方法は次のとおりです。
- CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待素材)フィルタリングを適用し、有害で違法なコンテンツを排除しました。
- 機密データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼性の高いものにするため、自動化された技術を使って、学習セットから特定の個人情報やその他の機密データをフィルタリングしました。
- 追加の方法: 当社のポリシーに沿ったコンテンツの品質と安全性に基づくフィルタリング。
実装情報
ハードウェア
Gemmaは、テンソル処理ユニット(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されました。ビジョン言語モデル(VLM)の学習には、大量の計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この分野でいくつかの利点を提供します。
- パフォーマンス: TPUは、VLMの学習に関与する大量の計算を処理するように特別に設計されています。CPUに比べて学習を大幅に高速化できます。
- メモリ: TPUには多くの場合、大容量の高帯域幅メモリが搭載されており、学習中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質が向上する可能性があります。
- 拡張性: TPU Pod(TPUの大規模クラスター)は、大規模な基盤モデルのますます複雑な学習を処理するための拡張可能なソリューションを提供します。複数のTPUデバイス間で学習を分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャに比べて、大規模なモデルの学習によりコスト効率の高いソリューションを提供できます。特に、高速な学習による時間とリソースの節約を考慮すると。
- これらの利点は、Googleの持続可能な運用に対するコミットメントと一致しています。
ソフトウェア
学習は、JAXとML Pathwaysを使用して行われました。 JAXにより、研究者はTPUを含む最新のハードウェアを利用して、大規模なモデルのより高速かつ効率的な学習を行うことができます。ML Pathwaysは、Googleが複数のタスクにわたって一般化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。 一緒に、JAXとML Pathwaysは、Geminiファミリーのモデルに関する論文に記載されているように使用されます。"JaxとPathwaysの'シングルコントローラ'プログラミングモデルにより、単一のPythonプロセスが学習全体を調整でき、開発ワークフローが大幅に簡素化されます。"
評価
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするため、さまざまなデータセットと指標に対して評価されました。
推論と事実性
ベンチマーク | 評価指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10ショット | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0ショット | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0ショット | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0ショット | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5ショット | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5ショット | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25ショット | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0ショット | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5ショット | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | 少数ショット | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1ショット | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 評価指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5ショット | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5ショット | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5ショット | 42.1 | 57.4 | 66.2 |
MATH | 4ショット | 24.2 | 43.3 | 50.0 |
GSM8K | 8ショット | 38.4 | 71.0 | 82.6 |
GPQA | 5ショット | 15.0 | 25.4 | 24.3 |
MBPP | 3ショット | 46.0 | 60.4 | 65.6 |
HumanEval | 0ショット | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (全て) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (検証用) | 72.8 | 82.3 | 85.6 |
InfoVQA (検証用) | 44.1 | 54.8 | 59.4 |
MMMU (事前学習) | 39.2 | 50.3 | 56.1 |
TextVQA (検証用) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理と安全
評価アプローチ
当社の評価方法には、構造化された評価と関連コンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、それぞれ異なる目標と人的評価指標を持つ複数の異なるチームによって実施されました。これらのモデルは、倫理と安全に関連するいくつかの異なるカテゴリに対して評価されました。
- 児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- コンテンツ安全: 嫌がらせ、暴力と残酷な描写、ヘイトスピーチを含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- 表現上の害: バイアス、ステレオタイプ、有害な関連付けまたは不正確さを含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「中立的な」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に役立てられます。高レベルの調査結果はモデルチームにフィードバックされますが、過学習を防ぎ、意思決定に役立つ結果を維持するために、プロンプトセットは保持されます。保証評価の結果は、リリースレビューの一環として当社の責任と安全委員会に報告されます。
評価結果
すべての安全テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、表現上の害のカテゴリで大きな改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキスト対テキストと画像対テキストの両方で、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスを大幅に改善しました。評価の制限として、英語のプロンプトのみが含まれていたことが挙げられます。
📄 ライセンス
Gemma 3 12B Instruction-tuned INT4のライセンスは、gemmaです。Hugging FaceでGemmaにアクセスするには、Googleの使用許諾契約を確認して同意する必要があります。これを行うには、Hugging Faceにログインし、下のボタンをクリックしてください。リクエストはすぐに処理されます。 ライセンスを承認する
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
使い方と制限
想定される用途
オープンなビジョン言語モデル(VLM)は、さまざまな業界やドメインで幅広い用途があります。以下の潜在的な用途のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルの学習と開発の一環として考慮した考えられるユースケースに関するコンテキスト情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと会話型AI: カスタマーサービス、バーチャルアシスタント、または対話型アプリケーションの会話型インターフェースを提供します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、テキストコミュニケーションのために、視覚データを抽出、解釈、要約するために使用できます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤となります。
- 言語学習ツール: 文法修正や文章練習を支援する、対話的な言語学習体験をサポートします。
- 知識探索: 研究者が大規模なテキストを探索し、特定のトピックに関する要約を生成したり質問に答えたりするのを支援します。
制限
- 学習データ
- 学習データの品質と多様性は、モデルの能力に大きく影響します。学習データに含まれるバイアスやギャップは、モデルの応答の制限につながる可能性があります。
- 学習データセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクに適しています。オープンエンドまたは非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(長いコンテキストは、ある程度まで一般的により良い出力につながります)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
- 事実の正確性
- モデルは学習データセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。
倫理的な考慮事項とリスク
ビジョン言語モデル(VLM)の開発には、いくつかの倫理的な懸念が生じます。オープンモデルを作成する際に、次の点を慎重に考慮しました。
- バイアスと公平性
- 大規模な実世界のテキストと画像データで学習されたVLMは、学習素材に埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは、詳細に記載された入力データの前処理と、このカードに報告された事後評価を経て、注意深く精査されました。
- 誤情報と誤用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のガイドラインが提供されています。責任ある生成AIツールキットを参照してください。
- 透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、機能、制限、および評価プロセスに関する詳細をまとめています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者がVLM技術にアクセスできるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと対策:
- バイアスの永続化: モデルの学習、微調整、およびその他のユースケースで、評価指標、人的レビューを使用した継続的なモニタリングと、バイアス除去技術の探索を行うことが推奨されます。
- 有害なコンテンツの生成: コンテンツ安全のメカニズムとガイドラインは不可欠です。開発者は、特定の製品ポリシーとアプリケーションのユースケースに基づいて、適切なコンテンツ安全対策を実装するよう注意を払うことが推奨されます。
- 悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザーへの教育は、VLMの悪意のあるアプリケーションを軽減するのに役立ちます。教育リソースとユーザーが誤用を報告するための機構が提供されています。Gemmaモデルの禁止された使用法は、Gemma禁止使用ポリシーに概説されています。
- プライバシー侵害: モデルは、特定の個人情報やその他の機密データを除去するためにフィルタリングされたデータで学習されました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。
利点
リリース時点で、このモデルファミリーは、同サイズのモデルに比べて、責任あるAI開発を念頭に設計された高性能のオープンビジョン言語モデルの実装を提供します。 このドキュメントに記載されたベンチマーク評価指標を使用して、これらのモデルは他の同サイズのオープンモデルの代替品に比べて優れたパフォーマンスを示しています。








