モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3はGoogleが開発した軽量で最先端のオープンモデルです。このモデルは多言語対応で、140以上の言語をサポートし、画像とテキストの入力を扱い、テキスト出力を生成することができます。
🚀 クイックスタート
このリポジトリは、Quantization Aware Training (QAT) を使用したGGUF形式のGemma 3モデルの1B 事前学習 (ベース) バージョンに対応しています。GGUFはQ4_0量子化に対応しています。ほとんどのユースケースでは、IT GGUFを使用することをお勧めします。
QATにより、モデルはbfloat16
と同様の品質を維持しながら、モデルをロードするためのメモリ要件を大幅に削減することができます。
半精度バージョンはこちら、命令モデルのQATバージョンはこちらで見つけることができます。
✨ 主な機能
- 多言語対応:140以上の言語をサポートします。
- マルチモーダル処理:テキストと画像の入力を扱い、テキスト出力を生成します。
- 大規模コンテキストウィンドウ:128Kのコンテキストウィンドウを持ち、長い入力に対応します。
- 軽量で高性能:比較的小さなサイズで、限られたリソース環境でもデプロイ可能です。
📦 インストール
llama.cpp (テキストのみ)
./llama-cli -hf google/gemma-3-1b-pt-qat-q4_0-gguf -p "It was a dark and stormy night."
ollama (テキストのみ)
ゲート付きリポジトリの実行に関するドキュメントを確認してください。
ollama run hf.co/google/gemma-3-1b-pt-qat-q4_0-gguf
💻 使用例
基本的な使用法
# llama.cpp (テキストのみ)
./llama-cli -hf google/gemma-3-1b-pt-qat-q4_0-gguf -p "It was a dark and stormy night."
# ollama (テキストのみ)
ollama run hf.co/google/gemma-3-1b-pt-qat-q4_0-gguf
📚 ドキュメント
モデル情報
説明
Gemmaは、Googleによる軽量で最先端のオープンモデルのファミリーです。Geminiモデルを作成するために使用された同じ研究と技術から構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を扱い、テキスト出力を生成します。事前学習バリアントと命令調整バリアントの両方のオープンウェイトがあります。Gemma 3は、128Kの大きなコンテキストウィンドウ、140以上の言語の多言語サポートを持ち、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイすることができ、最先端のAIモデルへのアクセスを民主化し、誰もがイノベーションを促進するのに役立ちます。
入力と出力
-
入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列
- 896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、および27Bサイズの場合は128Kトークン、1Bサイズの場合は32Kトークンの合計入力コンテキスト
-
出力:
- 質問への回答、画像コンテンツの分析、またはドキュメントの要約など、入力に応じて生成されたテキスト
- 8192トークンの合計出力コンテキスト
モデルデータ
学習データセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットで学習されました。27Bモデルは14兆トークンで学習され、12Bモデルは12兆トークンで学習され、4Bモデルは4兆トークンで学習され、1Bモデルは2兆トークンで学習されました。主な構成要素は次のとおりです。
- ウェブドキュメント:多様なウェブテキストのコレクションは、モデルが幅広い言語スタイル、トピック、語彙にさらされることを保証します。学習データセットには140以上の言語のコンテンツが含まれています。
- コード:モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コードを生成したり、コード関連の質問を理解したりする能力が向上します。
- 数学:数学的テキストで学習することで、モデルは論理的推論、記号表現を学習し、数学的クエリに対応することができます。
- 画像:幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行することができます。
これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を扱うことができる強力なマルチモーダルモデルを学習するために重要です。
データ前処理
学習データに適用された主なデータクリーニングとフィルタリング方法は次のとおりです。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM (児童性虐待素材) フィルタリングが適用され、有害で違法なコンテンツの除外が保証されました。
- 機密データフィルタリング:Gemma事前学習モデルを安全で信頼性の高いものにするための一環として、自動化された技術を使用して、学習セットから特定の個人情報やその他の機密データをフィルタリングしました。
- 追加の方法:[当社のポリシー][safety-policies]に沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
ハードウェア
Gemmaは、[Tensor Processing Unit (TPU)][tpu] ハードウェア (TPUv4p、TPUv5p、およびTPUv5e) を使用して学習されました。ビジョン言語モデル (VLM) を学習するには、多大な計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この分野でいくつかの利点を提供します。
- パフォーマンス:TPUは、VLMの学習に関与する大規模な計算を処理するように特別に設計されています。CPUと比較して、学習を大幅に高速化することができます。
- メモリ:TPUには多くの場合、大量の高帯域幅メモリが搭載されており、学習中に大規模なモデルとバッチサイズを処理することができます。これにより、モデルの品質を向上させることができます。
- スケーラビリティ:TPU Pod (TPUの大規模クラスター) は、大規模な基盤モデルのますます複雑な処理に対応するためのスケーラブルなソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能になります。
- コスト効率:多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模なモデルの学習にコスト効率の高いソリューションを提供することができます。特に、高速な学習によって節約される時間とリソースを考慮すると、その効果が顕著です。
- これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]と一致しています。
ソフトウェア
学習は、[JAX][jax] と [ML Pathways][ml-pathways] を使用して行われました。
JAXにより、研究者はTPUなどの最新のハードウェアを活用して、大規模なモデルをより高速かつ効率的に学習することができます。ML Pathwaysは、Googleが複数のタスクにまたがって一般化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。
JAXとML Pathwaysは、[Geminiモデルファミリーに関する論文][gemini-2-paper]で説明されているように使用されています。"JaxとPathwaysの 'シングルコントローラ' プログラミングモデルにより、単一のPythonプロセスが学習実行全体を調整することができ、開発ワークフローが大幅に簡素化されます。"
評価
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリックに対して評価されました。
推論と事実性
ベンチマーク | メトリック | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC-c][arc] | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC-e][arc] | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG-Bench Hard][bbh] | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | メトリック | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5-shot | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
[AGIEval][agieval] | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4-shot | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8-shot | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5-shot | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3-shot | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco-cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
倫理と安全性
評価アプローチ
当社の評価方法には、関連するコンテンツポリシーの構造化された評価と内部レッドチーミングテストが含まれています。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数の異なるチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。
- 児童安全:児童性虐待や搾取を含む児童安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- コンテンツ安全:嫌がらせ、暴力と残虐描写、および憎しみの言葉を含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
- 表現上の危害:偏見、ステレオタイプ、および有害な関連付けまたは誤りを含む安全ポリシーをカバーするテキスト対テキストおよび画像対テキストのプロンプトの評価。
開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「第三者」による内部評価です。これらの評価は、モデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは除外されて、過学習を防ぎ、意思決定に役立つ結果の能力を維持します。保証評価の結果は、リリースレビューの一環として当社の責任と安全理事会に報告されます。
評価結果
すべての安全テストの分野で、以前のGemmaモデルと比較して、児童安全、コンテンツ安全、および表現上の危害のカテゴリで大きな改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキスト対テキストおよび画像対テキストの両方について、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、以前のGemmaモデルの性能に比べて、根拠のない推論に関して大幅な改善を示しました。当社の評価の制限事項は、英語のプロンプトのみが含まれていたことです。
使用法と制限事項
意図された使用法
オープンビジョン言語モデル (VLM) は、さまざまな産業やドメインにわたって幅広いアプリケーションを持っています。以下の潜在的な使用例のリストは包括的ではありません。このリストの目的は、モデル作成者がモデルの学習と開発の一環として考慮した可能なユースケースに関するコンテキスト情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成:これらのモデルは、詩、脚本、コード、マーケティングコピー、およびメールドラフトなどの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブアプリケーションの会話型インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、テキストコミュニケーションのために視覚データを抽出、解釈、および要約するために使用できます。
- 研究と教育
- 自然言語処理 (NLP) とVLM研究:これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、この分野の進歩に貢献するための基盤として機能します。
- 言語学習ツール:文法修正を支援したり、執筆練習を提供したりすることで、インタラクティブな言語学習体験をサポートします。
- 知識探索:特定のトピックに関する要約を生成したり質問に答えたりすることで、研究者が大量のテキストを探索するのを支援します。
制限事項
- 学習データ
- 学習データの品質と多様性は、モデルの能力に大きく影響します。学習データのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- 学習データセットの範囲は、モデルが効果的に扱うことができる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクに優れています。オープンエンドまたは非常に複雑なタスクは、困難を伴う可能性があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります (長いコンテキストは、一般に、ある程度まではより良い出力につながります)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、または比喩的言語を理解するのに苦労する可能性があります。
- 事実の正確性
- モデルは、学習データセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。
倫理的考慮事項とリスク
ビジョン言語モデル (VLM) の開発には、いくつかの倫理的懸念が生じます。オープンモデルを作成する際に、当社は次の点を慎重に考慮しています。
- バイアスと公平性
- 大規模な現実世界のテキストと画像データで学習されたVLMは、学習素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは、注意深く精査され、入力データの前処理が説明され、このカードに事後評価が報告されています。
- 誤情報と誤用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のガイドラインが提供されています。[Responsible Generative AI Toolkit][rai-toolkit] を参照してください。
- 透明性と説明責任
- このモデルカードは、モデルのアーキテクチャ、機能、制限事項、および評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者がVLM技術にアクセスできるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと緩和策
- バイアスの永続化:モデルの学習、微調整、およびその他のユースケース中に、評価メトリック、人間のレビューを使用した継続的な監視と、バイアス除去技術の探索を行うことをお勧めします。
- 有害なコンテンツの生成:コンテンツ安全のメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションユースケースに基づいて、適切なコンテンツ安全対策を実装するように注意を払うことをお勧めします。
- 悪意のある目的での誤用:技術的な制限と開発者およびエンドユーザーの教育は、VLMの悪意のあるアプリケーションに対抗するのに役立ちます。誤用を報告するための教育リソースと報告メカニズムがユーザーに提供されています。Gemmaモデルの禁止使用は、[Gemma Prohibited Use Policy][prohibited-use] に概説されています。
- プライバシー侵害:モデルは、特定の個人情報やその他の機密データを削除するためにフィルタリングされたデータで学習されました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することをお勧めします。
メリット
リリース時点で、このモデルファミリーは、同様のサイズのモデルと比較して、責任あるAI開発のために最初から設計された高性能のオープンビジョン言語モデルの実装を提供します。
このドキュメントで説明されているベンチマーク評価メトリックを使用すると、これらのモデルは、同様のサイズの他のオープンモデルの代替案よりも優れたパフォーマンスを示しています。
📄 ライセンス
Gemma
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}








