モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデルカード
Gemma 3は、Googleによる軽量で最先端のオープンモデルです。このモデルは、Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築されており、テキストと画像の入力を処理し、テキスト出力を生成するマルチモーダルモデルです。
基本情報
属性 | 详情 |
---|---|
ベースモデル | google/gemma-3-12b-it-qat-q4_0-unquantized |
ライセンス | gemma |
タグ | gemma3、unsloth、gemma、google |
パイプラインタグ | image-text-to-text |
ライブラリ名 | transformers |
⚠️ 重要提示
このリポジトリは、Gemma 3モデルの12B 命令調整済み バージョンで、量子化認識トレーニング(QAT)を使用しています。このリポジトリのチェックポイントは量子化されていないため、お使いの好きなツールでQ4_0で量子化する必要があります。
リソースと技術文書
- Gemma 3 Technical Report
- Responsible Generative AI Toolkit
- Gemma on Kaggle
- Gemma on Vertex Model Garden
使用条件
作者
Google DeepMind
✨ 主な機能
Gemma 3モデルは、以下のような機能を持っています。
- マルチモーダル処理: テキストと画像の入力を処理し、テキスト出力を生成します。
- 大規模コンテキストウィンドウ: 128Kのコンテキストウィンドウを持ち、多言語対応(140以上の言語)しています。
- 多様なタスク対応: 質問応答、要約、推論などの様々なテキスト生成と画像理解タスクに適しています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
このREADMEに具体的なコード例が記載されていないため、このセクションをスキップします。
📚 ドキュメント
モデル情報
説明
Gemmaは、Googleによる軽量で最先端のオープンモデルのファミリーです。これらのモデルは、Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習バリアントと命令調整済みバリアントの両方のウェイトがオープンです。Gemma 3は、大規模な128Kのコンテキストウィンドウを持ち、140以上の言語をサポートし、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論などの様々なテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなどのリソースが限られた環境でも展開でき、最先端のAIモデルへのアクセスを民主化し、誰もがイノベーションを促進するのに役立ちます。
入力と出力
- 入力:
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント
- 画像、896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされる
- 4B、12B、および27Bサイズの場合は合計128Kトークンの入力コンテキスト、1Bサイズの場合は32Kトークン
- 出力:
- 入力に応答して生成されたテキスト、例えば質問への回答、画像コンテンツの分析、またはドキュメントの要約
- 合計8192トークンの出力コンテキスト
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
トレーニングデータセット
これらのモデルは、幅広いソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークンでトレーニングされ、12Bモデルは12兆トークンで、4Bモデルは4兆トークンで、1Bモデルは2兆トークンでトレーニングされました。主要な構成要素は以下の通りです。
- ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、および語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
- コード: モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の質問の理解能力が向上します。
- 数学: 数学的なテキストでトレーニングすることで、モデルは論理的な推論、記号表現、および数学的なクエリに対応する能力を学習します。
- 画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、幅広い異なるタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。
データ前処理
トレーニングデータに適用された主要なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待素材)フィルタリングが適用され、有害で違法なコンテンツが除外されます。
- 機密データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼性の高いものにするため、自動化された手法を使用して、トレーニングセットから特定の個人情報やその他の機密データがフィルタリングされます。
- 追加の方法: 当社のポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
ハードウェア
Gemmaは、Tensor Processing Unit (TPU)ハードウェア(TPUv4p、TPUv5p、およびTPUv5e)を使用してトレーニングされました。ビジョン言語モデル(VLM)のトレーニングには、多大な計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この分野でいくつかの利点を提供します。
- パフォーマンス: TPUは、VLMのトレーニングに関与する大規模な計算を処理するように特別に設計されています。CPUと比較して、トレーニングを大幅に高速化できます。
- メモリ: TPUは、多くの場合、大量の高帯域幅メモリを備えており、トレーニング中に大規模なモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
- スケーラビリティ: TPU Pod(TPUの大規模クラスター)は、大規模な基礎モデルの増加する複雑さを処理するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率: 多くのシナリオで、TPUは、CPUベースのインフラストラクチャと比較して、大規模なモデルのトレーニングによりコスト効率の高いソリューションを提供できます。特に、高速なトレーニングによって節約される時間とリソースを考慮すると、その効果が顕著です。
- これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]と一致しています。
ソフトウェア
トレーニングは、JAXとML Pathwaysを使用して行われました。 JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模なモデルをより高速かつ効率的にトレーニングできます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基礎モデルに特に適しています。 JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。「JaxとPathwaysの「シングルコントローラ」プログラミングモデルにより、単一のPythonプロセスがトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」
評価
⚠️ 重要提示
このセクションの評価は、元のチェックポイントに対応しており、QATチェックポイントではありません。
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするため、多数の異なるデータセットとメトリックに対して評価されました。
推論と事実性
ベンチマーク | メトリック | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | メトリック | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理と安全性
評価アプローチ
当社の評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれています。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数の異なるチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。
- 児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
- コンテンツ安全: 嫌がらせ、暴力と残虐描写、および憎しみの言葉を含む安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
- 表現上の危害: 偏見、固定観念、および有害な関連付けまたは誤りを含む安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「独立した」内部評価です。これらの評価は、モデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは除外され、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一環として当社の責任と安全理事会に報告されます。
評価結果
すべての安全テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、および表現上の危害のカテゴリで大幅な改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキストの両方について、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生み出し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスに比べて大幅な改善を示しました。当社の評価の限界は、英語のプロンプトのみを含んでいたことです。
使用方法と制限
想定される使用法
オープンビジョン言語モデル(VLM)は、様々な産業やドメインにわたって幅広いアプリケーションを持っています。以下の潜在的な使用例のリストは網羅的ではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一環として考慮した可能なユースケースに関するコンテキスト情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、およびメール草稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: 顧客サービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの会話型インターフェイスを提供します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、視覚データを抽出、解釈、および要約して、テキストコミュニケーションに使用できます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基礎として役立ちます。
- 言語学習ツール: 対話的な言語学習体験をサポートし、文法修正や執筆練習を支援します。
- 知識探索: 研究者が特定のトピックに関する要約を生成したり質問に答えたりすることで、大量のテキストを探索するのを支援します。
制限事項
- トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクに適しています。オープンエンドまたは非常に複雑なタスクは、困難になる可能性があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります(長いコンテキストは、ある程度までは一般的により良い出力をもたらします)。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
- 事実の正確性
- モデルは、トレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。
倫理的な考慮事項とリスク
ビジョン言語モデル(VLM)の開発には、いくつかの倫理的な懸念が生じます。オープンモデルを作成する際に、当社は以下のことを慎重に考慮しています。
- バイアスと公平性
- 大規模な現実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的なバイアスを反映する可能性があります。これらのモデルは、注意深く精査され、入力データの前処理が説明され、このカードに事後評価が報告されています。
- 誤情報と誤用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のガイドラインが提供されています。Responsible G








