モデル概要
モデル特徴
モデル能力
使用事例
base_model: google/gemma-3-27b-it-qat-q4_0-unquantized language:
- en library_name: transformers license: gemma tags:
- unsloth
- transformers
- gemma3
- gemma
当社のコレクションでGGUF、4ビット、16ビット形式を含むGemma 3の全バージョンを確認してください。
ガイドを読むでGemma 3を正しく実行する方法を確認してください。
✨ UnslothでGemma 3をファインチューニング!
- 無料でGemma 3(12B)をファインチューニングするには、GoogleのColabノートブックをご利用ください!
- Gemma 3サポートに関するブログを読む:unsloth.ai/blog/gemma3
- その他のノートブックはドキュメントで確認してください。
- ファインチューニングしたモデルをGGUF、Ollama、llama.cpp、または🤗HFにエクスポートできます。
Unslothがサポート | 無料ノートブック | パフォーマンス | メモリ使用量 |
---|---|---|---|
GRPO with Gemma 3 (12B) | ▶️ Colabで開始 | 2倍高速 | 80%削減 |
Llama-3.2 (3B) | ▶️ Colabで開始 | 2.4倍高速 | 58%削減 |
Llama-3.2 (11B vision) | ▶️ Colabで開始 | 2倍高速 | 60%削減 |
Qwen2.5 (7B) | ▶️ Colabで開始 | 2倍高速 | 60%削減 |
Phi-4 (14B) | ▶️ Colabで開始 | 2倍高速 | 50%削減 |
Mistral (7B) | ▶️ Colabで開始 | 2.2倍高速 | 62%削減 |
Gemma 3 27Bモデルカード
モデルページ: Gemma
リソースと技術文書:
利用規約: 規約
著者: Google DeepMind
モデル情報
概要説明と入力・出力の簡単な定義。
説明
GemmaはGoogleが開発した軽量で最先端のオープンモデルのファミリーで、Geminiモデルの作成に使用されたのと同じ研究と技術から構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を受け取り、テキスト出力を生成し、事前学習済みバリアントと命令調整済みバリアントの両方のオープンウェイトを提供します。Gemma 3は大きな128Kのコンテキストウィンドウ、140以上の言語での多言語サポートを備え、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズにより、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境での展開が可能で、最先端のAIモデルへのアクセスを民主化し、すべての人のためのイノベーションを促進します。
入力と出力
-
入力:
- 質問、プロンプト、要約する文書などのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズでは128Kトークン、1Bサイズでは32Kトークンの総入力コンテキスト
-
出力:
- 入力に対する応答として生成されたテキスト(質問への回答、画像内容の分析、文書の要約など)
- 8192トークンの総出力コンテキスト
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
モデルトレーニングに使用されたデータとデータの処理方法。
トレーニングデータセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークン、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンでトレーニングされました。主なコンポーネントは次のとおりです:
- ウェブ文書:多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
- コード:コードにさらされることで、モデルはプログラミング言語の構文とパターンを学習し、コード生成とコード関連の質問の理解能力が向上します。
- 数学:数学テキストのトレーニングにより、モデルは論理的推論、記号的表現、数学的クエリへの対応を学習します。
- 画像:幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。
データ前処理
トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は次のとおりです:
- CSAMフィルタリング:有害で違法なコンテンツを除外するために、データ準備プロセスの複数の段階で厳格なCSAM(児童性的虐待素材)フィルタリングが適用されました。
- 機密データフィルタリング:Gemma事前学習モデルを安全で信頼性の高いものにするために、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングする自動技術が使用されました。
- その他の方法:ポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
モデルの内部に関する詳細。
ハードウェア
GemmaはTensor Processing Unit (TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされました。視覚言語モデル(VLM)のトレーニングには多大な計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この領域でいくつかの利点を提供します:
- パフォーマンス:TPUはVLMのトレーニングに関わる大規模な計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
- メモリ:TPUには多くの場合、大容量の高帯域幅メモリが搭載されており、トレーニング中の大規模なモデルとバッチサイズの処理が可能です。これによりモデル品質が向上します。
- スケーラビリティ:TPU Pod(TPUの大規模クラスタ)は、大規模な基盤モデルの複雑さの増大に対処するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させて、より高速かつ効率的な処理が可能です。
- コスト効率:多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、特にトレーニング時間とリソースの節約を考慮すると、大規模なモデルのトレーニングによりコスト効率の高いソリューションを提供できます。
- これらの利点はGoogleの持続可能な運用への取り組みと一致しています。
ソフトウェア
トレーニングはJAXとML Pathwaysを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模なモデルのトレーニングをより高速かつ効率的に行えます。ML Pathwaysは、複数のタスクにわたって一般化できる人工知能システムを構築するためのGoogleの最新の取り組みです。これは、これらのような大規模言語モデルを含む基盤モデルに特に適しています。
JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。「JaxとPathwaysの『単一コントローラ』プログラミングモデルにより、単一のPythonプロセスでトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」
評価
モデル評価指標と結果。
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標に対して評価されました:
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3-5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
倫理と安全性
倫理と安全性の評価アプローチと結果。
評価アプローチ
評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連するさまざまなカテゴリに対して評価されました:
- 児童の安全: 児童性的虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。
- コンテンツの安全: ハラスメント、暴力と流血、ヘイトスピーチを含む安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。
- 表現的害: バイアス、ステレオタイプ、有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。
開発レベルの評価に加えて、責任あるガバナンスの意思決定に関する「保証評価」を実施しています。これらはモデル開発チームとは独立して実施され、リリースに関する意思決定を支援します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過剰適合を防ぎ、意思決定を支援する結果の能力を維持します。保証評価の結果は、リリースレビューの一環として責任と安全評議会に報告されます。
評価結果
安全性テストのすべての領域で、以前のGemmaモデルと比較して、児童の安全、コンテンツの安全、表現的害のカテゴリで大幅な改善が見られました。すべてのテストは、モデルの能力と動作を評価するために安全フィルターなしで実施されました。テキストからテキスト、画像からテキストの両方で、すべてのモデルサイズにおいて、モデルは最小限のポリシー違反を生成し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスよりも大幅な改善を示しました。評価の制限として、英語のプロンプトのみが含まれていました。
使用と制限
これらのモデルにはユーザーが認識すべき特定の制限があります。
意図された使用法
オープンな視覚言語モデル(VLM)は、さまざまな業界やドメインで幅広い用途があります。以下の潜在的な用途のリストは包括的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一部として考慮した可能な使用例に関する文脈情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成:詩、スクリプト、コード、マーケティングコピー、メールの下書きなどの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI:カスタマーサービス、仮想アシスタント、またはインタラクティブアプリケーションのための会話型インターフェースを強化します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、テキスト通信のために視覚データを抽出、解釈、要約するために使用できます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究:これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能します。
- 言語学習ツール:文法修正やライティング練習を支援するインタラクティブな言語学習体験をサポートします。
- 知識探索:研究者が特定のトピックに関する要約を生成したり、質問に答えたりすることで、大規模なテキストの探索を支援します。
制限
- トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム化できるタスクの方が優れています。オープンエンドまたは非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量(ある程度まで長いコンテキストは一般的により良い出力につながる)に影響を受ける可能性があります。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する場合があります。
- 事実の正確性
- モデルはトレーニングデータセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。不正確または時代遅れの事実を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている場合があります。
倫理的考慮事項とリスク
視覚言語モデル(VLM)の開発は、いくつかの倫理的懸念を引き起こします。オープンモデルを作成する際、私たちは次の点を慎重に考慮しました:
- バイアスと公平性
- 大規模な実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは、このカードで説明されている入力データの前処理と事後評価を慎重に精査しました。
- 誤情報と誤用
- VLMは、虚偽、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- 責任ある生成AIツールキットに記載されているように、モデルの責任ある使用のためのガイドラインが提供されています。
- 透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者と研究者にVLM技術をアクセス可能にすることで、イノベーションを共有する機会を提供します。
特定されたリスクと緩和策:
- バイアスの永続化: 評価指標、人間のレビューを使用した継続的な監視と、モデルのトレーニング、ファインチューニング、およびその他の使用例におけるバイアス除去技術の探索が推奨されます。
- 有害なコンテンツの生成: コンテンツの安全性のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用例に基づいて適切なコンテンツ安全対策を実施するよう注意を払うことが推奨されます。
- 悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザー教育は、VLMの悪意のあるアプリケーションを緩和するのに役立ちます。教育リソースとユーザーが誤用を報告するためのメカニズムが提供されています。Gemmaモデルの禁止された使用は、Gemma禁止使用ポリシーに概説されています。
- プライバシー侵害: モデルは、特定の個人情報やその他の機密データを除去するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を使用してプライバシー規制を遵守することが推奨されます。
利点
リリース時点で、このモデルファミリーは、同サイズのモデルと比較して責任あるAI開発のために設計された高性能なオープン視覚言語モデルの実装を提供します。
この文書で説明されているベンチマーク評価指標を使用して、これらのモデルは、同サイズの他のオープンモデル代替品よりも優れたパフォーマンスを提供することが示されています。









