Gemma 3オープンソースマルチモーダルモデル - 画像とテキストの入力を無料で処理し、多様なテキストと画像のタスクを満たす

ホーム

Gemma 3 12b It Qat

unslothによって開発

Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。様々なテキスト生成と画像理解タスクに適しています。

画像生成テキスト

Transformers

#マルチモーダル理解 #128K長文脈 #軽量化デプロイ

ダウンロード数 952

リリース時間 : 4/21/2025

モデル概要

Gemma 3はGeminiモデルと同じ研究と技術に基づいて構築されたマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。128Kの大きな文脈ウィンドウを持ち、140種類以上の言語をサポートし、質問応答、要約、推論などのタスクに適しています。

モデル特徴

マルチモーダル処理

テキストと画像の入力を同時に処理し、テキスト出力を生成できます。

大きな文脈ウィンドウ

128Kの大きな文脈ウィンドウを持ち、長いテキストと複雑なタスクの処理に適しています。

多言語サポート

140種類以上の言語をサポートし、広範な言語カバレッジを持っています。

軽量化設計

比較的小さいモデルサイズで、リソースが限られた環境でのデプロイに適しています。

量子化感知トレーニング

QAT技術を採用し、メモリ要件を削減しながらbfloat16に近い品質を維持します。

モデル能力

テキスト生成

画像分析

多言語処理

コード生成

数学的推論

文書要約

質問応答システム

ビジュアル質問応答

使用事例

コンテンツ作成とコミュニケーション

テキスト生成

詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式を生成します。

チャットボットと対話型AI

カスタマーサービス、バーチャルアシスタント、またはインタラクティブアプリケーションの対話インターフェースを提供します。

画像データ抽出

視覚データを抽出、解釈、要約してテキスト通信に使用します。

研究と教育

自然言語処理研究

研究員がVLMとNLP技術を試すための基礎として使用されます。

言語学習ツール

インタラクティブな言語学習体験をサポートし、文法修正や作文練習を支援します。

知識探索

要約を生成したり、特定のトピックに関する質問に答えることで、研究員が大量のテキストを探索するのを支援します。

🚀 Gemma 3モデルカード

Gemma 3はGoogleが開発した軽量で最先端のオープンモデルです。Transformerアーキテクチャをベースに構築され、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは、多様なタスクやデータ形式に対応し、限られたリソース環境でもデプロイ可能です。

モデルページ: Gemma

⚠️ 重要な注意事項

このリポジトリは、量子化認識トレーニング（QAT）を使用したGemma 3モデルの12B 命令調整済み バージョンに対応しています。

このリポジトリのチェックポイントは量子化されていないため、お好みのツールでQ4_0で量子化することを確認してください

QATにより、モデルはbfloat16と同様の品質を維持しながら、モデルをロードするためのメモリ要件を大幅に削減することができます。

リソースと技術ドキュメント:

[Gemma 3技術レポート][g3-tech-report]
[責任ある生成AIツールキット][rai-toolkit]
[KaggleのGemma][kaggle-gemma]
[Vertex Model GardenのGemma][vertex-mg-gemma3]

利用規約: [利用規約][terms]

著者: Google DeepMind

✨ 主な機能

マルチモーダル対応: テキストと画像の入力を処理し、テキスト出力を生成します。
大規模コンテキストウィンドウ: 128Kのコンテキストウィンドウを持ち、多言語対応（140以上の言語）しています。
多様なタスク対応: 質問応答、要約、推論などの様々なテキスト生成と画像理解タスクに適しています。
リソース効率: 比較的小さなサイズであり、ノートパソコンやデスクトップ、クラウドインフラストラクチャなどの限られたリソース環境でもデプロイ可能です。

📦 インストール

ドキュメントに具体的なインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

ドキュメントに具体的なコード例が記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル情報

説明

Gemmaは、Googleによる軽量で最先端のオープンモデルファミリーです。Geminiモデルを作成するために使用された同じ研究と技術から構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習バリアントと命令調整バリアントの両方のオープンウェイトがあります。Gemma 3は、大きな128Kのコンテキストウィンドウを持ち、140以上の言語での多言語サポートがあり、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論などの様々なテキスト生成と画像理解タスクに適しています。比較的小さなサイズであるため、ノートパソコンやデスクトップ、独自のクラウドインフラストラクチャなどの限られたリソース環境でもデプロイすることができ、最先端のAIモデルへのアクセスを民主化し、誰もが革新を促進するのに役立ちます。

入力と出力

入力	詳細
テキスト文字列	質問、プロンプト、要約するドキュメントなど
画像	896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされます
総入力コンテキスト	4B、12B、27Bサイズの場合は128Kトークン、1Bサイズの場合は32Kトークン

出力	詳細
生成されたテキスト	入力に対する応答として生成されたテキスト、質問への回答、画像コンテンツの分析、ドキュメントの要約など
総出力コンテキスト	8192トークン

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルデータ

トレーニングデータセット

これらのモデルは、幅広いソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークンでトレーニングされ、12Bモデルは12兆トークンでトレーニングされ、4Bモデルは4兆トークンでトレーニングされ、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は次のとおりです。

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
コード: モデルをコードにさらすことで、プログラミング言語の構文やパターンを学習し、コードを生成したり、コード関連の質問を理解する能力が向上します。
数学: 数学的なテキストでトレーニングすることで、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対応することができます。
画像: 幅広い画像により、モデルは画像分析や視覚データ抽出タスクを実行することができます。

これらの多様なデータソースの組み合わせは、幅広い異なるタスクやデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。

データ前処理

トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は次のとおりです。

CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待素材）フィルタリングが適用され、有害で違法なコンテンツの除外が確保されました。
機微データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼性の高いものにするため、自動化された手法を使用して、トレーニングセットから特定の個人情報やその他の機微データをフィルタリングしました。
追加の方法: [当社のポリシー][safety-policies]に沿ったコンテンツ品質と安全性に基づくフィルタリング。

実装情報

ハードウェア

Gemmaは、[テンソル処理ユニット（TPU）][tpu]ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用してトレーニングされました。ビジョン言語モデル（VLM）をトレーニングするには、かなりの計算能力が必要です。機械学習で一般的な行列演算用に特別に設計されたTPUは、この分野でいくつかの利点を提供します。

パフォーマンス: TPUは、VLMのトレーニングに関与する大規模な計算を処理するように特別に設計されています。CPUと比較して、トレーニングを大幅に高速化することができます。
メモリ: TPUには多くの場合、大量の高帯域幅メモリが搭載されており、トレーニング中に大きなモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
スケーラビリティ: TPUポッド（TPUの大規模クラスター）は、大規模な基盤モデルの増大する複雑さを処理するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させることで、より高速かつ効率的な処理が可能になります。
コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模なモデルをトレーニングするためのよりコスト効率の高いソリューションを提供できます。特に、高速なトレーニングによって節約される時間とリソースを考慮すると。
これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]と一致しています。

ソフトウェア

トレーニングは、[JAX][jax]と[ML Pathways][ml-pathways]を使用して行われました。

JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模なモデルをより高速かつ効率的にトレーニングすることができます。ML Pathwaysは、複数のタスクにまたがって一般化できる人工知能システムを構築するためのGoogleの最新の取り組みです。これは、このような大規模言語モデルを含む基盤モデルに特に適しています。

JAXとML Pathwaysは、[Geminiモデルファミリーに関する論文][gemini-2-paper]で説明されているように一緒に使用されます。"JaxとPathwaysの'シングルコントローラ'プログラミングモデルにより、単一のPythonプロセスがトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。"

評価

⚠️ 重要な注意事項

このセクションの評価は、元のチェックポイントに対応しており、QATチェックポイントではありません。

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリックに対して評価されました。

推論と事実性

ベンチマーク	メトリック	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	メトリック	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3-5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

倫理と安全性

評価アプローチ

当社の評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれています。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数の異なるチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。

児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
コンテンツ安全: 嫌がらせ、暴力や残虐描写、憎しみの言葉を含む安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。
表現上の害: 偏見、ステレオタイプ、有害な関連付けまたは不正確さを含む安全ポリシーをカバーするテキストからテキストへのプロンプトと画像からテキストへのプロンプトの評価。

開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「独立した」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは除外されて、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一環として当社の責任と安全理事会に報告されます。

評価結果

すべての安全性テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、表現上の害のカテゴリで大幅な改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキストの両方について、すべてのモデルサイズで、モデルは最小限のポリシー違反を生み出し、以前のGemmaモデルの性能に比べて、根拠のない推論に関して大幅な改善を示しました。当社の評価の限界は、英語のプロンプトのみを含んでいたことです。

使用方法と制限事項

想定される使用方法

オープンビジョン言語モデル（VLM）は、さまざまな産業やドメインで幅広いアプリケーションを持っています。以下の潜在的な使用例のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として考慮した可能なユースケースに関するコンテキスト情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、メール草稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: カスタマーサービス、バーチャルアシスタント、またはインタラクティブアプリケーションの会話型インターフェースを強化します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、視覚データを抽出、解釈、要約して、テキストコミュニケーションに使用できます。
研究と教育
- 自然言語処理（NLP）とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として役立ちます。
- 言語学習ツール: 対話型の言語学習体験をサポートし、文法の修正や執筆練習を支援します。
- 知識探索: 研究者が大規模なテキストボディを探索するのを支援し、特定のトピックに関する要約を生成したり質問に答えたりします。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータの偏りやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクでより優れています。オープンエンドまたは非常に複雑なタスクは困難になる可能性があります。
- モデルのパフォーマンスは、提供されるコンテキストの量に影響される可能性があります（長いコンテキストは、ある程度まで一般的により良い出力につながります）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
事実の正確性
- モデルはトレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的な考慮事項とリスク

ビジョン言語モデル（VLM）の開発には、いくつかの倫理的な懸念が生じます。オープンモデルを作成する際に、当社は次の点を慎重に考慮しています。

偏見と公平性
- 大規模な現実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的な偏見を反映する可能性があります。これらのモデルは、注意深く精査され、入力データの前処理が説明され、このカードに報告された事後評価が行われました。
誤情報と誤用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されています。詳細については、[責任ある使用ガイドライン][responsible-use]を参照してください。