モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3はGoogleによって開発された軽量なマルチモーダルモデルで、Geminiと同じ技術に基づいて構築されています。このモデルはテキストと画像の入力をサポートし、テキストを出力します。テキスト生成や画像理解などの様々なタスクに適しており、リソースが限られた環境でもデプロイ可能です。
🚀 クイックスタート
- モデルページ:Gemma
- リソースと技術ドキュメント:
- [Gemma 3技術レポート][g3-tech-report]
- [責任ある生成AIツールキット][rai-toolkit]
- [Kaggle上のGemma][kaggle-gemma]
- [VertexモデルライブラリのGemma 3][vertex-mg-gemma3]
- 使用条件:[条項][terms]
- 作者:Google DeepMind
✨ 主な機能
- マルチモーダル処理:テキストと画像の入力をサポートし、テキスト出力を生成します。
- 大規模コンテキストウィンドウ:4B、12B、27Bバージョンは128Kの入力コンテキストをサポートし、1Bバージョンは32Kの入力コンテキストをサポートします。
- 多言語対応:140種類以上の言語をサポートします。
- 軽量設計:比較的小さなモデルサイズで、リソースが限られた環境でもデプロイ可能です。
📚 ドキュメント
モデル情報
説明
GemmaはGoogleによって開発された一連の軽量で高度なオープンソースモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と命令微調整バージョンのモデル重みはすべてオープンソースです。Gemma 3は128Kの大規模コンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くのモデルサイズを提供します。Gemma 3モデルは、質問応答、要約、推論などの様々なテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなどのリソースが限られた環境でデプロイでき、より多くの人が高度なAIモデルを利用できるようになり、イノベーションが促進されます。
入力と出力
- 入力:
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント。
- 画像、896 x 896解像度に正規化され、各画像は256個のトークンにエンコードされます。
- 4B、12B、27Bバージョンの総入力コンテキストは128Kトークン、1Bバージョンは32Kトークン。
- 出力:
- 入力に対する生成テキスト、例えば質問の回答、画像内容の分析、またはドキュメントの要約。
- 総出力コンテキストは8192トークン。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
学習データセット
これらのモデルは、複数のソースからのテキストデータセットで学習されています。27Bモデルは14兆個のトークンで学習され、12Bモデルは12兆個のトークン、4Bモデルは4兆個のトークン、1Bモデルは2兆個のトークンで学習されています。主な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語の内容が含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
- 数学:数学テキストで学習することで、モデルは論理推論、記号表現、数学的クエリの解決を学習できます。
- 画像:幅広い画像データにより、モデルは画像分析と視覚データ抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、強力なマルチモーダルモデルを学習するために不可欠であり、様々なタスクとデータ形式を処理できるようにします。
データ前処理
学習データに適用される主なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング:データ準備過程の複数の段階で厳格なCSAM(児童性虐待材料)フィルタリングを適用し、有害で違法な内容を排除します。
- 敏感データフィルタリング:Gemma事前学習モデルの安全性と信頼性を確保するための一部として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感データをフィルタリングします。
- その他の方法:[当社のポリシー][safety-policies]に基づいて、内容の品質と安全性のフィルタリングを行います。
実装情報
ハードウェア
Gemmaの学習には[テンソル処理ユニット(TPU)][tpu]ハードウェア(TPUv4p、TPUv5p、TPUv5e)が使用されています。視覚言語モデル(VLM)の学習には大量の計算能力が必要です。TPUは機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- 性能:TPUはVLMの学習に必要な大量の計算を処理するように特別に設計されており、CPUと比較して学習速度を大幅に向上させることができます。
- メモリ:TPUは通常、大量の高帯域メモリを備えており、学習過程で大型モデルとバッチサイズを処理でき、モデル品質の向上に役立ちます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速で効率的な処理を実現できます。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の高いソリューションを提供できます。特に、高速な学習速度による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点は[Googleの持続可能な運用の約束][sustainability]に合致しています。
ソフトウェア
学習には[JAX][jax]と[ML Pathways][ml-pathways]が使用されています。
JAXにより、研究者は最新世代のハードウェア(TPUを含む)を利用して、より高速で効率的な大型モデルの学習を行うことができます。ML Pathwaysは、Googleが複数のタスクで汎化できる人工知能システムを構築する最新の成果であり、このような大型言語モデルを含む基礎モデルに特に適しています。
JAXとML Pathwaysの使用方法は、[Geminiモデルファミリーに関する論文][gemini-2-paper]に記載されています。「JaxとPathwaysの「シングルコントローラ」プログラミングモデルにより、単一のPythonプロセスで学習プロセス全体を編成でき、開発ワークフローが大幅に簡素化されます。」
評価
ベンチマークテスト結果
これらのモデルは、テキスト生成の様々な側面を網羅するために、多数の異なるデータセットと指標で評価されています。
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC-c][arc] | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC-e][arc] | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG-Bench Hard][bbh] | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5-shot | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
[AGIEval][agieval] | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4-shot | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8-shot | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5-shot | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3-shot | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco-cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
倫理とセキュリティ
評価方法
当社の評価方法には、構造化評価と関連する内容ポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数のカテゴリで評価されています。
- 児童安全:テキストからテキスト、画像からテキストのプロンプトを評価し、児童性虐待や搾取を含む児童安全ポリシーをカバーします。
- 内容セキュリティ:テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力、血腥な内容、および憎悪発言を含むセキュリティポリシーをカバーします。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、固定概念、有害な関連付け、または不正確な情報を含むセキュリティポリシーをカバーします。
開発段階の評価に加えて、当社は「保証評価」も行っています。これは、責任あるガバナンス決定のための独立した内部評価です。これらの評価はモデル開発チームとは別に行われ、モデルのリリース決定に情報を提供します。高度な評価結果はモデルチームにフィードバックされますが、プロンプトセットは公開されません。これは、過学習を防ぎ、評価結果が決定に有効な情報を提供できるようにするためです。保証評価結果は、リリースレビューの一部として当社の責任とセキュリティ委員会に報告されます。
評価結果
すべてのセキュリティテスト分野で、以前のGemmaモデルと比較して、児童安全、内容セキュリティ、表現上の危害などのカテゴリで大幅な改善が見られました。すべてのテストは、セキュリティフィルターを使用せずに行われ、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキストのタスク、およびすべてのモデルサイズについて、モデルがポリシー違反を起こすことはほとんどなく、無根拠な推論に関しては以前のGemmaモデルよりも著しい改善が見られました。当社の評価の限界の1つは、英語のプロンプトのみを使用したことです。
使用と制限
想定用途
オープンソースの視覚言語モデル(VLM)は、様々な業界や分野で広範な用途があります。以下の潜在的な用途のリストは網羅的ではなく、モデル作成者がモデルの学習と開発過程で考慮する可能性のあるユースケースのコンテキスト情報を提供することを目的としています。
- コンテンツ作成とコミュニケーション:
- テキスト生成:これらのモデルは、詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI:顧客サービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、視覚データの抽出、解釈、および要約に使用でき、テキストコミュニケーションに役立ちます。
- 研究と教育:
- 自然言語処理(NLP)とVLM研究:これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、この分野を発展させるための基礎として使用できます。
- 言語学習ツール:インタラクティブな言語学習体験をサポートし、文法修正や執筆練習を支援します。
- 知識探索:要約の生成や特定のトピックに関する質問への回答を通じて、研究者が大量のテキストを探索するのを支援します。
制限
- 学習データ:
- 学習データの品質と多様性は、モデルの能力に大きく影響します。学習データに含まれるバイアスや欠落が、モデルの応答の制限につながる可能性があります。
- 学習データセットの範囲は、モデルが効果的に処理できるトピック領域を決定します。
- コンテキストとタスクの複雑さ:
- モデルは、明確なプロンプトと指示で記述できるタスクに長けています。オープンエンドまたは非常に複雑なタスクは難しい場合があります。
- モデルの性能は、提供されるコンテキストの量に影響される可能性があります(一定の範囲内で、より長いコンテキストは通常、より良い出力をもたらします)。
- 言語の曖昧さとニュアンス:自然言語は本質的に複雑であり、モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのが難しい場合があります。
- 事実の正確性:モデルは学習データセットから学んだ情報に基づいて応答を生成しますが、知識ベースではなく、不正確または古い事実陳述を生成する可能性があります。
- 常識的推論:モデルは言語の統計的パターンに依存しており、場合によっては常識的推論を適用する能力が不足している可能性があります。
倫理的考慮事項とリスク
視覚言語モデル(VLM)の開発にはいくつかの倫理的問題が伴います。オープンソースモデルを作成する際に、当社は以下の点を慎重に考慮しています。
- バイアスと公平性:大規模な現実世界のテキストと画像データで学習されたVLMは、学習材料に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは慎重にレビューされており、入力データの前処理とその後の評価は本モデルカードに報告されています。
- 誤情報と悪用:VLMは、虚偽、誤解を招く、または有害なテキストの生成に悪用される可能性があります。当社は[責任ある生成AIツールキット][rai-toolkit]を提供し、モデルの責任ある使用をガイドしています。
- 透明性と説明責任:本モデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスの詳細情報をまとめています。責任ある開発のオープンソースモデルは、開発者と研究者にイノベーションを共有する機会を提供し、AIエコシステムでVLM技術を利用できるようにします。
リスクの特定と緩和策
- バイアスの継続:モデルの学習、微調整、およびその他の使用シナリオでの継続的な監視(評価指標、人為的レビューを使用)を推奨し、バイアス除去技術の探索を行います。
- 有害なコンテンツの生成:コンテンツセキュリティメカニズムとガイドラインは不可欠です。開発者は、具体的な製品ポリシーとアプリケーションシナリオに基づいて、適切なコンテンツセキュリティ保障措置を慎重に実施する必要があります。
📄 ライセンス
このモデルはgemmaライセンスを使用しています。
属性 | 詳細 |
---|---|
モデルタイプ | マルチモーダル視覚言語モデル |
学習データ | ウェブドキュメント、コード、数学テキスト、画像 |
⚠️ 重要な注意事項
この評価では英語のプロンプトのみを使用しているため、一定の制限がある可能性があります。
💡 使用上のヒント
モデルを使用する際には、具体的なタスクとシナリオに合わせて適切なモデルサイズを選択し、学習データの品質と多様性がモデルの性能に与える影響に注意してください。また、責任ある使用ガイドラインに従い、有害なコンテンツの生成を避けてください。








