モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3はGoogleが提供する軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。様々なテキスト生成や画像理解タスクに適しています。
🚀 クイックスタート
インストール
まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0バージョンからサポートされています。
$ pip install -U transformers
実行例
pipeline
APIを使用した実行
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
指令による微調整が行われたモデルの場合は、入力をチャットテンプレートで処理してからパイプラインに渡す必要があります。
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
単一GPUまたは複数GPUでのモデル実行
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-27b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
✨ 主な機能
- マルチモーダル処理:テキストと画像の入力を処理し、テキスト出力を生成できます。
- 大規模コンテキストウィンドウ:128Kの大規模コンテキストウィンドウを持っています。
- 多言語対応:140種類以上の言語をサポートしています。
- 複数の規模選択:さまざまな規模のモデルが用意されており、異なるアプリケーションシーンに対応できます。
- 低リソース要件:比較的小規模なモデルであるため、リソースが限られた環境でもデプロイ可能です。
📦 インストール
Gemma 3モデルを使用するには、まずTransformersライブラリをインストールする必要があります。Gemma 3はtransformers 4.50.0バージョンからサポートされています。
$ pip install -U transformers
💻 使用例
基本的な使用法
pipeline
APIを使用して推論を行う例です。
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
高度な使用法
単一GPUまたは複数GPUでモデルを実行する例です。
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-27b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
📚 ドキュメント
モデル情報
概要
GemmaはGoogleが提供する一連の軽量で最先端のオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と指令微調整のバリエーションはすべてオープンな重みを持っています。Gemma 3は128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くの規模選択肢を提供しています。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小規模なため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイ可能です。これにより、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションが促進されます。
入力と出力
- 入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列。
- 896 x 896の解像度に正規化され、それぞれ256個のトークンにエンコードされた画像。
- 4B、12B、27B規模のモデルの総入力コンテキストは128Kトークン、1B規模のモデルは32Kトークン。
- 出力:
- 入力に対する生成テキスト応答、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力コンテキストは8192トークン。
モデルデータ
学習データセット
これらのモデルは、さまざまなソースのテキストデータセットを含むデータセットで学習されています。27Bモデルは14兆トークンで学習され、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンで学習されています。主な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることができます。学習データセットには140種類以上の言語の内容が含まれています。
- コード:モデルにコードに触れさせることで、プログラミング言語の構文とパターンを学習し、コード生成やコード関連の問題の理解能力を向上させます。
- 数学:数学的なテキストで学習することで、モデルは論理的な推論、記号表現、数学的なクエリの解決を学習できます。
- 画像:幅広い画像を使用することで、モデルは画像分析と視覚データ抽出タスクを実行できます。
データ前処理
学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待材料)フィルタリングが適用され、有害で違法なコンテンツが排除されます。
- 敏感データフィルタリング:Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
- その他の方法:コンテンツの品質と安全性に基づいて、当社のポリシーに従ってフィルタリングされます。
実装情報
ハードウェア
Gemmaはテンソル処理ユニット(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。視覚言語モデル(VLM)の学習には大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- パフォーマンス:TPUはVLMの学習に関わる大量の計算を処理するように設計されています。CPUと比較して、学習を大幅に高速化できます。
- メモリ:TPUは通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の良いソリューションを提供できます。特に、高速な学習による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点は[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。
ソフトウェア
学習にはJAXとML Pathwaysが使用されています。JAXにより、研究人員はTPUを含む最新世代のハードウェアを活用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大型言語モデルを含む基礎モデルに特に適しています。JAXとML Pathwaysの組み合わせの使用方法は、Geminiモデルファミリーに関する論文で説明されています:「JaxとPathwaysの'単一コントローラ'プログラミングモデルにより、単一のPythonプロセスで学習実行全体を編成でき、開発ワークフローが大幅に簡素化されます。」
評価
ベンチマークテスト結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットと指標で評価されています。
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理とセキュリティ
評価方法
評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリで評価されています。
- 子どもの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの性虐待や搾取を含む子どもの安全ポリシーをカバーしています。
- コンテンツセキュリティ:テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力と血腥、憎しみの言葉を含むセキュリティポリシーをカバーしています。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、固定概念、有害な関連付けまたは不正確な情報を含むセキュリティポリシーをカバーしています。 開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンス決定のための独立した内部評価です。これらの評価はモデル開発チームとは別に行われ、リリースに関する決定情報を提供します。高レベルの結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過学習を防止し、結果が決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一部として責任とセキュリティ委員会に報告されます。
評価結果
すべてのセキュリティテスト分野で、以前のGemmaモデルと比較して、子どもの安全、コンテンツセキュリティ、表現上の危害のカテゴリで大きな改善が見られました。すべてのテストはセキュリティフィルターを使用せずに行われ、モデルの能力と挙動を評価しました。テキストからテキスト、画像からテキスト、およびすべてのモデル規模において、モデルはポリシー違反を最小限に抑え、以前のGemmaモデルよりも無根拠な推論において大幅な改善が見られました。評価の限界点として、英語のプロンプトのみが含まれていることが挙げられます。
使用と制限
想定用途
オープンな視覚言語モデル(VLM)は、さまざまな業界や分野で幅広い用途があります。以下に挙げる潜在的な用途は網羅的ではありません。このリストは、モデル作成者がモデルの学習と開発過程で考慮した可能なユースケースに関するコンテキスト情報を提供することを目的としています。
- コンテンツ作成とコミュニケーション:
- テキスト生成:これらのモデルは、詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェイスを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、視覚データを抽出、解釈、要約してテキストコミュニケーションに利用できます。
- 研究と教育:
- 自然言語処理(NLP)とVLM研究:これらのモデルは、研究人員がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基礎として利用できます。
- 言語学習:言語学習者が文法、語彙、読解力などの言語スキルを向上させるのに役立ちます。
🔧 技術詳細
ハードウェア
Gemmaはテンソル処理ユニット(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。視覚言語モデル(VLM)の学習には大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- パフォーマンス:TPUはVLMの学習に関わる大量の計算を処理するように設計されています。CPUと比較して、学習を大幅に高速化できます。
- メモリ:TPUは通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の良いソリューションを提供できます。特に、高速な学習による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点は[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。
ソフトウェア
学習にはJAXとML Pathwaysが使用されています。JAXにより、研究人員はTPUを含む最新世代のハードウェアを活用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大型言語モデルを含む基礎モデルに特に適しています。JAXとML Pathwaysの組み合わせの使用方法は、Geminiモデルファミリーに関する論文で説明されています:「JaxとPathwaysの'単一コントローラ'プログラミングモデルにより、単一のPythonプロセスで学習実行全体を編成でき、開発ワークフローが大幅に簡素化されます。」
📄 ライセンス
Gemmaモデルのライセンスはgemmaです。Hugging Face上でGemmaにアクセスするには、Googleの使用許諾を確認して同意する必要があります。そのためには、Hugging Faceにログインし、以下のボタンをクリックしてください。リクエストはすぐに処理されます。 ライセンスを確認する
📚 引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルページ:Gemma
リソースと技術ドキュメント:
使用条件:利用規約
作者:Google DeepMind








