base_model: google/gemma-3-1b-it
license: gemma
tags:
- gemma3
- gemma
- google
pipeline_tag: text-generation
library_name: transformers
extra_gated_heading: Hugging FaceでGemmaにアクセス
extra_gated_prompt: >-
Hugging FaceでGemmaにアクセスするには、Googleの利用規約を確認し同意する必要があります。これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。リクエストは即時処理されます。
extra_gated_button_content: 規約を承認
Gemma 3 モデルカード
モデルページ: Gemma
[!Note]
このリポジトリは、量子化対応トレーニング(QAT)を使用したGemma 3モデルの1B 命令チューニングバージョンに対応しています。
このリポジトリのチェックポイントは非量子化です。お気に入りのツールでQ4_0量子化を行ってください
QATのおかげで、モデルはbfloat16
と同等の品質を維持しつつ、モデルをロードする際のメモリ要件を大幅に削減できます。
リソースと技術文書:
利用規約: 規約
著者: Google DeepMind
モデル情報
概要説明と入力・出力の簡単な定義。
説明
Gemmaは、Googleが提供する軽量で最先端のオープンモデルファミリーで、Geminiモデルの作成に使用されたのと同じ研究と技術から構築されています。
Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理しテキストを出力します。事前学習済みバリアントと命令チューニングバリアントの両方の重みが公開されています。Gemma 3は128Kという大きなコンテキストウィンドウ、140以上の言語での多言語サポート、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成および画像理解タスクに適しています。比較的小さいサイズのため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でも展開可能で、最先端のAIモデルへのアクセスを民主化し、すべての人のためのイノベーションを促進します。
入力と出力
-
入力:
- 質問、プロンプト、要約対象の文書などのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズでは128Kトークン、1Bサイズでは32Kトークンの総入力コンテキスト
-
出力:
- 入力に対する応答として生成されたテキスト。質問への回答、画像内容の分析、文書の要約など
- 8192トークンの総出力コンテキスト
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
モデルトレーニングに使用されたデータとデータ処理方法。
トレーニングデータセット
これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークン、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は以下の通りです:
- ウェブ文書:多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
- コード:モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の質問理解の能力が向上します。
- 数学:数学的なテキストでのトレーニングにより、論理的推論、記号的表現、数学的クエリへの対応を学習します。
- 画像:多様な画像により、モデルは画像分析と視覚的データ抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。
データ前処理
トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです:
- CSAMフィルタリング:有害で違法なコンテンツを確実に除外するため、データ準備プロセスの複数の段階で厳格なCSAM(児童性的虐待素材)フィルタリングが適用されました。
- 機密データフィルタリング:Gemma事前学習モデルを安全で信頼性の高いものにするため、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングする自動技術が使用されました。
- その他の方法:当社のポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
モデルの内部詳細。
ハードウェア
GemmaはTensor Processing Unit (TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされました。視覚言語モデル(VLM)のトレーニングには多大な計算能力が必要です。機械学習で一般的な行列演算に特化して設計されたTPUは、この分野でいくつかの利点を提供します:
- パフォーマンス:TPUはVLMのトレーニングに関わる大規模な計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
- メモリ:TPUは多くの場合、大容量の高帯域幅メモリを備えており、トレーニング中の大規模なモデルとバッチサイズを処理できます。これによりモデル品質が向上します。
- スケーラビリティ:TPU Pod(TPUの大規模クラスタ)は、大規模な基盤モデルの複雑さの増大に対処するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させ、より高速かつ効率的な処理が可能です。
- コスト効率:多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、特にトレーニングの高速化により節約される時間とリソースを考慮すると、大規模モデルのトレーニングによりコスト効率の高いソリューションを提供できます。
- これらの利点はGoogleの持続可能な運用への取り組みと一致しています。
ソフトウェア
トレーニングはJAXとML Pathwaysを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模モデルのより高速で効率的なトレーニングが可能になります。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みです。これは、これらのような大規模言語モデルを含む基盤モデルに特に適しています。
JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。「JaxとPathwaysの『単一コントローラ』プログラミングモデルにより、単一のPythonプロセスがトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」
評価
[!Note]
このセクションの評価は、QATチェックポイントではなく、オリジナルのチェックポイントに対応しています。
モデル評価指標と結果。
ベンチマーク結果
これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットと指標に対して評価されました:
推論と事実性
ベンチマーク |
指標 |
Gemma 3 PT 1B |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
HellaSwag |
10-shot |
62.3 |
77.2 |
84.2 |
85.6 |
BoolQ |
0-shot |
63.2 |
72.3 |
78.8 |
82.4 |
PIQA |
0-shot |
73.8 |
79.6 |
81.8 |
83.3 |
SocialIQA |
0-shot |
48.9 |
51.9 |
53.4 |
54.9 |
TriviaQA |
5-shot |
39.8 |
65.8 |
78.2 |
85.5 |
Natural Questions |
5-shot |
9.48 |
20.0 |
31.4 |
36.1 |
ARC-c |
25-shot |
38.4 |
56.2 |
68.9 |
70.6 |
ARC-e |
0-shot |
73.0 |
82.4 |
88.3 |
89.0 |
WinoGrande |
5-shot |
58.2 |
64.7 |
74.3 |
78.8 |
BIG-Bench Hard |
few-shot |
28.4 |
50.9 |
72.6 |
77.7 |
DROP |
1-shot |
42.4 |
60.1 |
72.2 |
77.2 |
STEMとコード
ベンチマーク |
指標 |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
MMLU |
5-shot |
59.6 |
74.5 |
78.6 |
MMLU (Pro COT) |
5-shot |
29.2 |
45.3 |
52.2 |
AGIEval |
3-5-shot |
42.1 |
57.4 |
66.2 |
MATH |
4-shot |
24.2 |
43.3 |
50.0 |
GSM8K |
8-shot |
38.4 |
71.0 |
82.6 |
GPQA |
5-shot |
15.0 |
25.4 |
24.3 |
MBPP |
3-shot |
46.0 |
60.4 |
65.6 |
HumanEval |
0-shot |
36.0 |
45.7 |
48.8 |
多言語
マルチモーダル
倫理と安全性
倫理と安全性の評価アプローチと結果。
評価アプローチ
私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くの異なるカテゴリに対して評価されました:
- 児童安全: 児童性的虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価
- コンテンツ安全: ハラスメント、暴力とゴア、ヘイトスピーチを含む安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価
- 表現的害: 偏見、ステレオタイプ、有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価
開発レベルの評価に加えて、責任あるガバナンスの意思決定を通知するための「保証評価」を実施しています。これらはモデル開発チームから独立して実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過剰適合を防ぎ、意思決定を通知する結果の能力を維持します。保証評価の結果は、リリースレビューの一環として当社の責任と安全評議会に報告されます。
評価結果
すべての安全テスト領域において、以前のGemmaモデルと比較して、児童安全、コンテンツ安全、表現的害のカテゴリで大幅な改善が見られました。すべてのテストは、モデルの能力と動作を評価するために安全フィルターなしで実施されました。テキストからテキスト、画像からテキストの両方、およびすべてのモデルサイズにおいて、モデルは最小限のポリシー違反を生成し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスと比較して大幅な改善を示しました。私たちの評価の制限は、英語のプロンプトのみを含んでいたことです。
使用と制限
これらのモデルには、ユーザーが認識すべき特定の制限があります。
意図された使用
オープンな視覚言語モデル(VLM)は、さまざまな業界やドメインで幅広い用途があります。以下の潜在的な使用例のリストは包括的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一部として考慮した可能な使用例に関する文脈情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成:これらのモデルは、詩、スクリプト、コード、マーケティングコピー、メールの下書きなどの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI:カスタマーサービス、仮想アシスタント、またはインタラクティブアプリケーションのための会話インターフェースを強化します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、テキスト通信のために視覚データを抽出、解釈、要約するために使用できます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究:これらのモデルは、研究者がVLMおよびNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能します。
- 言語学習ツール:文法修正やライティング練習を支援するインタラクティブな言語学習体験をサポートします。
- 知識探索:研究者が特定のトピックに関する要約を生成したり、質問に答えたりすることで、大規模なテキストを探索するのを支援します。
制限
- トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きな影響を与えます。トレーニングデータの偏りやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム化できるタスクの方が優れています。オープンエンドまたは非常に複雑なタスクは難しいかもしれません。
- モデルのパフォーマンスは、提供されるコンテキストの量(ある程度までは、より長いコンテキストがより良い出力につながる)に影響を受ける可能性があります。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、比喩的な言語を理解するのに苦労するかもしれません。
- 事実の正確性
- モデルはトレーニングデータセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは時代遅れの事実を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的推論を適用する能力が欠けている可能性があります。
倫理的考慮事項とリスク
視覚言語モデル(VLM)の開発は、いくつかの倫理的懸念を引き起こします。オープンモデルを作成するにあたり、私たちは以下の点を慎重に考慮しました:
- 偏りと公平性
- 大規模な実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的な偏りを反映する可能性があります。これらのモデルは、このカードで説明されている入力データの前処理と事後評価に記載されているように、慎重な審査を受けました。
- 誤情報と悪用
- VLMは、虚偽、誤解を招く、または有害なテキストを生成するために悪用される可能性があります。
- 責任ある生成AIツールキットに記載されているように、モデルの責任ある使用のためのガイドラインが提供されています。
- 透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者にVLM技術をアクセス可能にすることで、イノベーションを共有する機会を提供します。
特定されたリスクと緩和策:
- 偏りの永続化: 評価指標、人間のレビューを使用した継続的な監視、およびモデルのトレーニング、ファインチューニング、その他の使用例における偏り除去技術の探求が推奨されます。
- 有害なコンテンツの生成: コンテンツ安全のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用例に基づいて適切なコンテンツ安全保護を実施するよう注意を払うことが推奨されます。
- 悪意のある目的での悪用: 技術的制限と開発者およびエンドユーザー教育は、VLMの悪意のあるアプリケーションに対抗するのに役立ちます。教育リソースとユーザーが悪用を報告するための報告メカニズムが提供されています。Gemmaモデルの禁止された使用は、Gemma禁止使用ポリシーに概説されています。
- プライバシー侵害: モデルは、特定の個人情報やその他の機密データを除去するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。
利点
リリース時点で、このモデルファミリーは、同規模のモデルと比較して責任あるAI開発のために最初から設計された高性能なオープン視覚言語モデルの実装を提供します。
このドキュメントで説明されているベンチマーク評価指標を使用すると、これらのモデルは、同規模の他のオープンモデル代替品と比較して優れたパフォーマンスを提供することが示されています。