モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3はGoogleが開発した軽量で最先端のオープンソースモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはマルチモーダルをサポートしており、テキストと画像の入力を処理し、テキスト出力を生成することができます。様々なテキスト生成や画像理解タスクに適しています。
🚀 クイックスタート
このリポジトリはGemma 3モデルの4B 命令微調整 バージョンに対応しており、量子化感知トレーニング(QAT)を用いたGGUF形式で、GGUFはQ4_0量子化に対応しています。QATのおかげで、このモデルはロード時のメモリ要件を大幅に削減しながら、bfloat16
に近い品質を維持することができます。
半精度バージョンはこちらで見つけることができます。
コード例
llama.cpp(テキストのみ)
./llama-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "Write a poem about the Kraken."
llama.cpp(画像入力)
wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-4b-it-qat-q4_0-gguf -p "Describe this image." --image ~/Downloads/surprise.png
ollama(テキストのみ)
現在、Hugging Faceを通じてOllamaでGGUFを使用する場合、画像入力はサポートされていません。制限付きリポジトリの実行に関するドキュメントを参照してください。
ollama run hf.co/google/gemma-3-4b-it-qat-q4_0-gguf
✨ 主な機能
- マルチモーダル処理:テキストと画像の入力をサポートし、テキスト出力を生成します。
- 大規模コンテキストウィンドウ:128Kの大規模コンテキストウィンドウを持ちます。
- 多言語サポート:140種類以上の言語をサポートします。
- 軽量デプロイ:比較的小さいモデルサイズで、リソースが限られた環境でのデプロイに適しています。
📚 ドキュメント
モデル情報
説明
GemmaはGoogleが開発した軽量で最先端のオープンソースモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルをサポートしており、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と命令微調整バージョンの重みはすべてオープンソースです。このモデルは128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりもサイズが小さくなっています。Gemma 3モデルは、質問応答、要約、推論など、様々なテキスト生成や画像理解タスクに適しています。比較的小さいサイズのため、ノートパソコン、デスクトップ、または自前のクラウドインフラストラクチャなど、リソースが限られた環境でのデプロイが可能で、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションを促進します。
入力と出力
タイプ | 詳細 |
---|---|
入力 | - テキスト文字列(質問、プロンプト、要約するドキュメントなど) - 画像(896 x 896の解像度に正規化され、256個のトークンにエンコードされる) - 4B、12B、27Bサイズの総入力コンテキストは128Kトークン、1Bサイズは32Kトークン |
出力 | - 入力に対して生成されたテキスト(質問の答え、画像内容の分析、ドキュメントの要約など) - 総出力コンテキストは8192トークン |
モデルデータ
トレーニングデータセット
これらのモデルは、様々なソースからのテキストデータセットでトレーニングされています。27Bモデルは14兆個のトークンでトレーニングされ、12Bモデルは12兆個、4Bモデルは4兆個、1Bモデルは2兆個のトークンでトレーニングされています。主な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることを保証します。トレーニングデータセットには140種類以上の言語の内容が含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文やパターンを学習し、コード生成やコード関連の問題の理解能力を向上させます。
- 数学:数学的なテキストでのトレーニングは、モデルが論理的な推論、記号表記、数学的なクエリの解決を学習するのに役立ちます。
- 画像:幅広い画像により、モデルは画像分析や視覚データの抽出タスクを実行することができます。
これらの多様なデータソースの組み合わせは、様々なタスクやデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために不可欠です。
データ前処理
トレーニングデータに適用される主なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待材料)フィルタリングを適用し、有害で違法な内容を排除します。
- 機密データフィルタリング:Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用してトレーニングセットから特定の個人情報やその他の機密データをフィルタリングします。
- その他の方法:当社のポリシーに基づいて、内容の品質と安全性に基づくフィルタリングを行います。
実装情報
ハードウェア
Gemmaはテンソル処理ユニット(TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされています。ビジュアル言語モデル(VLM)のトレーニングには大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- パフォーマンス:TPUはVLMのトレーニングに関わる大量の計算を処理するように特別に設計されており、CPUと比較してトレーニングプロセスを大幅に高速化することができます。
- メモリ:TPUは通常、大量の高帯域メモリを備えており、トレーニング中に大型のモデルやバッチサイズを処理することができ、モデルの品質を向上させます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルのますます高まる複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスでトレーニングを分散させることで、より高速で効率的な処理を実現できます。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルのトレーニングによりコスト効率の高いソリューションを提供します。特に、より高速なトレーニング速度による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点はGoogleの持続可能な運営のコミットメントと一致しています。
ソフトウェア
トレーニングにはJAXとML Pathwaysを使用しています。
JAXにより、研究者は最新世代のハードウェア(TPUを含む)を利用して、大型モデルをより高速かつ効率的にトレーニングすることができます。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築する最新の成果であり、このような大型言語モデルを含む基礎モデルに特に適しています。
Geminiモデルファミリーに関する論文に記載されているように、JAXとML Pathwaysは一緒に使用されます。「JaxとPathwaysの「単一コントローラ」プログラミングモデルにより、単一のPythonプロセスがトレーニングプロセス全体を編成することができ、開発ワークフローが大幅に簡素化されます。」
評価
⚠️ 重要な注意
このセクションの評価は、元のチェックポイントに対応しており、QATチェックポイントではありません。
ベンチマークテスト結果
これらのモデルは、テキスト生成のさまざまな側面を網羅するために、多数の異なるデータセットと指標に対して評価されています。
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理と安全
評価方法
評価方法には、構造化評価と関連する内容ポリシーに関する内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリに対して評価されており、以下のものが含まれます。
- 子どもの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの性虐待や搾取を含む子どもの安全ポリシーを網羅しています。
- コンテンツの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力、血腥な内容、および憎しみの言葉を含む安全ポリシーを網羅しています。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含む安全ポリシーを網羅しています。
開発段階の評価に加えて、「保証評価」も行われています。これは、責任あるガバナンスの決定を行うための「独立した」内部評価です。これらの評価はモデル開発チームとは別に行われ、リリースの決定に情報を提供します。高レベルの発見はモデルチームにフィードバックされますが、プロンプトセットは過学習を防ぎ、結果が決定に役立つ能力を維持するために保持されます。保証評価の結果は、責任と安全委員会に対するリリースレビューの一部として報告されます。
評価結果
すべての安全テスト分野において、以前のGemmaモデルと比較して、子どもの安全、コンテンツの安全、表現上の危害のカテゴリで大きな改善が見られました。すべてのテストは、安全フィルターを使用せずに行われ、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキスト、およびすべてのモデルサイズにおいて、モデルはポリシー違反を最小限に抑え、以前のGemmaモデルよりも根拠のない推論において著しい改善を示しました。評価の1つの制限は、英語のプロンプトのみが含まれていることです。
使用と制限
想定される用途
オープンソースのビジュアル言語モデル(VLM)は、さまざまな業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではなく、モデルの作成者がモデルのトレーニングと開発の過程で考慮した可能なユースケースのコンテキスト情報を提供することを目的としています。
- コンテンツ作成とコミュニケーション
- テキスト生成:詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:視覚データの抽出、解釈、および要約に使用でき、テキストコミュニケーションに役立ちます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究:研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基盤として使用できます。
- 言語学習ツール:インタラクティブな言語学習体験をサポートし、文法の修正や作文練習を支援します。
- 知識探索:要約を生成したり、特定のトピックに関する質問に答えたりすることで、研究者が大量のテキストを探索するのを支援します。
制限
- トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できるトピック領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構築できるタスクに長けています。オープンエンドまたは非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(ある程度まで、より長いコンテキストは通常、より良い出力をもたらします)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのが難しい場合があります。
- 事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。場合によっては、常識的な推論を適用する能力が欠けている可能性があります。
倫理的な考慮事項とリスク
ビジュアル言語モデル(VLM)の開発にはいくつかの倫理的な問題が提起されます。オープンソースモデルを作成する際には、以下の点を慎重に考慮しました。
- バイアスと公平性
- 大規模な現実世界のテキストと画像データでトレーニングされたVLMは、データのバイアスを引き継ぐ可能性があります。モデルの出力が公平でバイアスのないものになるようにするための対策が必要です。
🔧 技術詳細
モデル引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
リソースと技術ドキュメント
使用条件
作成者
Google DeepMind
📄 ライセンス
Gemma
関連リンク
- モデルページ:Gemma








