モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3はGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Geminiモデルを構築するために用いられた研究と技術に基づいています。このモデルは多モーダル処理機能を備え、テキストと画像の入力をサポートし、テキスト出力を生成することができます。様々なテキスト生成と画像理解タスクに適しています。
🚀 クイックスタート
インストール
Gemma 3はtransformers
4.50.0バージョンからサポートされています。まず、Transformers
ライブラリをインストールします。
$ pip install -U transformers
次に、あなたのユースケースに合わせて関連するコードスニペットをコピーします。
使用例
基本的な使用法
pipeline
APIを使用して推論を行います。
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3-27b-it",
device="cuda",
torch_dtype=torch.bfloat16
)
指令調整されたモデルの場合、入力をチャットテンプレートで処理してからパイプラインに渡す必要があります。
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
高度な使用法
シングルGPUまたはマルチGPUでモデルを実行します。
# pip install accelerate
from transformers import AutoProcessor, Gemma3ForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3-27b-it"
model = Gemma3ForConditionalGeneration.from_pretrained(
model_id, device_map="auto"
).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages, add_generation_prompt=True, tokenize=True,
return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
✨ 主な機能
- 多モーダル処理:テキストと画像の入力をサポートし、テキスト出力を生成します。
- 大きなコンテキストウィンドウ:128Kの大きなコンテキストウィンドウを持ちます。
- 多言語対応:140種類以上の言語をサポートします。
- 軽量性:比較的小さなモデルサイズで、リソースが限られた環境でもデプロイ可能です。
📦 インストール
Transformers
ライブラリをインストールします。
$ pip install -U transformers
📚 ドキュメント
モデル情報
説明
GemmaはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Geminiモデルを構築するために用いられた研究と技術に基づいています。Gemma 3モデルは多モーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習バリアントと指令調整バリアントの重みはすべてオープンソースです。Gemma 3は128Kの大きなコンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くのサイズが選択可能です。Gemma 3モデルは、質問応答、要約、推論など、様々なテキスト生成と画像理解タスクに非常に適しています。比較的小さなサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイでき、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションを促進します。
入力と出力
- 入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列。
- 896 x 896の解像度に正規化され、各画像が256個のトークンにエンコードされた画像。
- 4B、12B、27Bサイズの総入力コンテキストは128Kトークン、1Bサイズの総入力コンテキストは32Kトークン。
- 出力:
- 質問の回答、画像内容の分析、またはドキュメントの要約など、入力に対する生成されたテキスト応答。
- 総出力コンテキストは8192トークン。
モデルデータ
学習データセット
これらのモデルは、複数のソースからのテキストデータセットで学習されています。27Bモデルは14兆個のトークンで学習され、12Bモデルは12兆個のトークンで学習され、4Bモデルは4兆個のトークンで学習され、1Bモデルは2兆個のトークンで学習されています。以下は主要な構成要素です。
- ウェブドキュメント:多様なウェブテキストの集合により、モデルは幅広い言語スタイル、トピック、語彙に触れることができます。学習データセットには140種類以上の言語の内容が含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
- 数学:数学テキストで学習することで、モデルは論理的な推論、記号表現、数学的なクエリの解決を学習することができます。
- 画像:幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行することができます。
これらの多様なデータソースの組み合わせは、様々なタスクとデータ形式を処理できる強力な多モーダルモデルを学習するために重要です。
データ前処理
学習データに適用される主要なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、有害で違法なコンテンツを排除するために、厳格なCSAM(児童性虐待材料)フィルタリングが適用されています。
- 敏感データフィルタリング:Gemma事前学習モデルを安全かつ信頼性の高いものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータをフィルタリングしています。
- その他の方法:コンテンツの品質と安全性に基づいてフィルタリングされ、当社のポリシーに準拠しています。
実装情報
ハードウェア
Gemmaはテンソル処理ユニット(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。ビジュアル言語モデル(VLM)の学習には大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- パフォーマンス:TPUはVLMの学習に関わる大量の計算を処理するように特別に設計されています。CPUと比較して、学習速度を大幅に向上させることができます。
- メモリ:TPUは通常、大量の高帯域幅メモリを備えており、学習中に大きなモデルとバッチサイズを処理することができます。これにより、モデルの品質を向上させることができます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルのますます複雑化する処理に対して拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速で効率的な処理を実現できます。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習に対してよりコスト効率の高いソリューションを提供します。特に、学習速度の向上による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点はGoogleの持続可能な運営へのコミットメントに合致しています。
ソフトウェア
学習にはJAXとML Pathwaysが使用されています。
JAXにより、研究者は最新世代のハードウェア(TPUを含む)を利用して、大型モデルをより高速かつ効率的に学習することができます。ML Pathwaysは、複数のタスクにわたって汎化できる人工知能システムを構築するためのGoogleの最新の取り組みです。これは、このような大型言語モデルを含む基礎モデルに特に適しています。
JAXとML Pathwaysは、Gemmaモデルファミリーに関する論文で述べられているように、「JaxとPathwaysの「シングルコントローラ」プログラミングモデルにより、単一のPythonプロセスで学習プロセス全体を編成することができ、開発ワークフローが大幅に簡素化されます。」という形で一緒に使用されています。
評価
ベンチマークテスト結果
これらのモデルは、テキスト生成の様々な側面を網羅するため、多数の異なるデータセットと指標に対して評価されています。
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
多モーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理とセキュリティ
評価方法
評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人的評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリに対して評価されています。
- 児童安全:テキストからテキスト、画像からテキストのプロンプトを評価し、児童性虐待や搾取を含む児童安全ポリシーを対象としています。
- コンテンツセキュリティ:テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力、血腥な内容、ハットスピーチを含むセキュリティポリシーを対象としています。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含むセキュリティポリシーを対象としています。
開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンスの決定を行うための「独立した」内部評価です。これらの評価はモデル開発チームとは別に行われ、リリースの決定に情報を提供します。高レベルの発見はモデルチームにフィードバックされますが、プロンプトセットは公開されず、過学習を防止し、結果が決定に役立つ能力を維持します。保証評価の結果は、責任とセキュリティ委員会に対するリリースレビューの一部として報告されます。
評価結果
すべてのセキュリティテスト分野で、以前のGemmaモデルと比較して、児童安全、コンテンツセキュリティ、表現上の危害のカテゴリで大きな改善が見られました。すべてのテストはセキュリティフィルターなしで行われ、モデルの能力と動作を評価しています。テキストからテキスト、画像からテキスト、およびすべてのモデルサイズについて、モデルはポリシー違反を最小限に抑え、以前のGemmaモデルよりも無根拠な推論に関して著しい改善を示しています。評価の1つの制限は、英語のプロンプトのみが含まれていることです。
使用と制限
想定される用途
オープンビジュアル言語モデル(VLM)は、様々な業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではありません。このリストの目的は、モデルの作成者がモデルの学習と開発過程で考慮した可能なユースケースに関するコンテキスト情報を提供することです。
- コンテンツ作成とコミュニケーション:
- テキスト生成:これらのモデルは、詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと対話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話型インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、視覚データの抽出、解釈、および要約に使用でき、テキストコミュニケーションに役立ちます。
- 研究と教育:
- 自然言語処理(NLP)とVLM研究:これらのモデルは、研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野の発展に貢献するための基礎となります。
- 言語学習:学習者が文法、語彙、読解力などの言語スキルを向上させるのに役立ちます。
制限
ユーザーは、これらのモデルには一定の制限があることを理解する必要があります。評価には英語の言語プロンプトのみが含まれており、他の言語でのパフォーマンスは異なる可能性があります。
🔧 技術詳細
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
📄 ライセンス
ライセンスは:gemma
モデルページ:Gemma
リソースと技術文書:
使用条件:条件
作者:Google DeepMind








