モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3モデル微調整プロジェクト
このプロジェクトは、Unslothプラットフォームを利用してGemma 3モデルを微調整し、ユーザーに無料で効率的なモデル微調整ソリューションを提供することを目的としています。ユーザーはGoogle Colab notebookを通じて簡単に始めることができ、微調整後のモデルを複数の形式にエクスポートすることもサポートされています。Gemma 3モデルは、多モーダル処理能力、大規模なコンテキストウィンドウ、多言語サポートなどの特性を持ち、さまざまなテキスト生成と画像理解タスクに適しています。
🚀 クイックスタート
- 無料でGoogleのColab notebookを使用して、Gemma 3 (12B) を微調整しましょう。
- Gemma 3のサポートに関するブログを読んでください:unsloth.ai/blog/gemma3。
- ドキュメントで他のnotebookを確認してください。
- 微調整後のモデルをGGUF、Ollama、llama.cppまたはHFにエクスポートします。
Unslothのコレクションを確認し、GGUF、4ビットおよび16ビット形式を含むすべてのバージョンのGemma 3を入手してください。
Unslothの動的量子化は選択的に量子化されており、標準的な4ビット量子化と比較して精度が大幅に向上しています。
✨ 主な機能
- 多モーダル処理:テキストと画像の入力をサポートし、テキスト出力を生成します。
- 大規模なコンテキストウィンドウ:128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートします。
- リソースにやさしい:比較的小さいモデルサイズで、リソースが限られた環境でのデプロイに適しています。
- 性能向上:前代バージョンと比較して、さまざまなタスクでより優れた性能を発揮します。
📦 モデル情報
モデルページ
リソースと技術ドキュメント
使用条件
作者
Google DeepMind
説明
Gemmaは、Googleが提供する一連の軽量で最先端のオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルは多モーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と命令微調整のバリエーションの重みはすべて公開されています。Gemma 3は128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くのサイズが選択可能です。Gemma 3モデルは、質問応答、要約、推論などのさまざまなテキスト生成と画像理解タスクに非常に適しています。比較的小さいサイズのため、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でのデプロイが可能であり、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションを促進します。
入力と出力
- 入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列。
- 896 x 896解像度に正規化された画像で、各画像は256個のトークンにエンコードされます。
- 4B、12B、27Bサイズの総入力コンテキストは128Kトークン、1Bサイズは32Kトークンです。
- 出力:
- 質問の回答、画像内容の分析、またはドキュメントの要約など、入力に対して生成されたテキスト。
- 総出力コンテキストは8192個のトークンです。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
📦 モデルデータ
学習データセット
これらのモデルは、さまざまなソースのテキストデータセットで学習されています。27Bモデルは14兆個のトークンで学習され、12Bモデルは12兆個、4Bモデルは4兆個、1Bモデルは2兆個のトークンで学習されています。主要な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合は、モデルが幅広い言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語の内容が含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力を向上させます。
- 数学:数学テキストでの学習は、モデルが論理的な推論、記号表現、数学的なクエリの処理を学習するのに役立ちます。
- 画像:幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行することができます。
これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力な多モーダルモデルを学習するために不可欠です。
データ前処理
学習データに適用される主要なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待材料)フィルタリングを適用し、有害で違法な内容を排除します。
- 敏感データフィルタリング:Gemmaの事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータをフィルタリングします。
- その他の方法:内容の品質と安全性に基づいてフィルタリングし、当社のポリシーに準拠します。
🔧 技術詳細
ハードウェア
Gemmaは、テンソル処理ユニット (TPU) ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。視覚言語モデル (VLM) の学習には大量の計算能力が必要です。TPUは、機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- 性能:TPUは、VLMの学習に関与する大量の計算を処理するように特別に設計されています。CPUと比較して、学習プロセスを大幅に高速化することができます。
- メモリ:TPUは通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理することができます。これにより、モデルの品質が向上します。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルのますます複雑化する処理に対して拡張可能なソリューションを提供します。複数のTPUデバイスに学習を分散させることで、より高速で効率的な処理が可能になります。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習に対してよりコスト効率の高いソリューションを提供します。特に、節約された時間とリソースを考慮すると、この利点は顕著です。
- これらの利点は、Googleの持続可能な運用へのコミットメントに合致しています。
ソフトウェア
学習にはJAXとML Pathwaysが使用されています。
JAXにより、研究者は最新世代のハードウェア(TPUを含む)を利用して、大型モデルをより高速かつ効率的に学習することができます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築するための最新の成果です。これは、このような大型言語モデルを含む基礎モデルに特に適用されます。
JAXとML Pathwaysの組み合わせの使用は、Geminiシリーズモデルに関する論文で説明されています。「JaxとPathwaysの「単一コントローラ」プログラミングモデルにより、単一のPythonプロセスが学習プロセス全体を編成することができ、開発ワークフローが大幅に簡素化されます。」
📊 評価
ベンチマークテスト結果
これらのモデルは、テキスト生成のさまざまな側面を網羅するために、多数の異なるデータセットと指標で評価されています。
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
BoolQ | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
PIQA | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
SocialIQA | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
TriviaQA | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
Natural Questions | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
ARC-c | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
ARC-e | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
WinoGrande | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
BIG-Bench Hard | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
DROP | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | 5-shot | 59.6 | 74.5 | 78.6 |
MMLU (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
AGIEval | 3 - 5-shot | 42.1 | 57.4 | 66.2 |
MATH | 4-shot | 24.2 | 43.3 | 50.0 |
GSM8K | 8-shot | 38.4 | 71.0 | 82.6 |
GPQA | 5-shot | 15.0 | 25.4 | 24.3 |
MBPP | 3-shot | 46.0 | 60.4 | 65.6 |
HumanEval | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | 2.04 | 34.7 | 64.3 | 74.3 |
Global-MMLU-Lite | 24.9 | 57.0 | 69.4 | 75.7 |
WMT24++ (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
FloRes | 29.5 | 39.2 | 46.0 | 48.8 |
XQuAD (all) | 43.9 | 68.0 | 74.5 | 76.8 |
ECLeKTic | 4.69 | 11.0 | 17.2 | 24.4 |
IndicGenBench | 41.4 | 57.2 | 61.7 | 63.4 |
多モーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | 102 | 111 | 116 |
DocVQA (val) | 72.8 | 82.3 | 85.6 |
InfoVQA (val) | 44.1 | 54.8 | 59.4 |
MMMU (pt) | 39.2 | 50.3 | 56.1 |
TextVQA (val) | 58.9 | 66.5 | 68.6 |
RealWorldQA | 45.5 | 52.2 | 53.9 |
ReMI | 27.3 | 38.5 | 44.8 |
AI2D | 63.2 | 75.2 | 79.0 |
ChartQA | 63.6 | 74.7 | 76.3 |
VQAv2 | 63.9 | 71.2 | 72.9 |
BLINK | 38.0 | 35.9 | 39.6 |
OKVQA | 51.0 | 58.7 | 60.2 |
TallyQA | 42.5 | 51.8 | 54.3 |
SpatialSense VQA | 50.9 | 60.0 | 59.4 |
CountBenchQA | 26.1 | 17.8 | 68.0 |
📄 倫理と安全
評価方法
当社の評価方法には、構造化評価と関連する内容ポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリで評価されています。
- 児童安全:児童性虐待や搾取を含む、児童安全ポリシーに関するテキストからテキスト、画像からテキストのプロンプトを評価します。
- 内容安全:嫌がらせ、暴力や血腥な内容、憎しみの言葉を含む、安全ポリシーに関するテキストからテキスト、画像からテキストのプロンプトを評価します。
- 表現による危害:偏見、ステレオタイプ、有害な関連付けまたは不正確な情報を含む、安全ポリシーに関するテキストからテキスト、画像からテキストのプロンプトを評価します。
開発段階の評価に加えて、当社は「保証評価」を行っています。これは、責任あるガバナンスの決定を行うための「独立した」内部評価です。これらの評価はモデル開発チームとは別に行われ、リリース決定に関する情報を提供します。高レベルの評価結果はモデルチームにフィードバックされますが、プロンプトセットは公開されず、過学習を防ぎ、結果が決定に役立つようにします。保証評価の結果は、責任と安全委員会に対するリリースレビューの一部として報告されます。
評価結果
すべての安全テスト分野で、以前のGemmaモデルと比較して、児童安全、内容安全、表現による危害のカテゴリで大きな改善が見られました。すべてのテストは安全フィルターを使用せずに行われ、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキスト、およびすべてのモデルサイズについて、モデルはポリシー違反を最小限に抑え、以前のGemmaモデルと比較して無根拠な推論において著しい改善を示しました。当社の評価の限界の1つは、英語のプロンプトのみを含んでいることです。
📄 使用と制限
想定される用途
オープン視覚言語モデル (VLM) は、さまざまな業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルの学習と開発過程で考慮した可能なユースケースに関するコンテキスト情報を提供することです。
- コンテンツ作成とコミュニケーション:
- テキスト生成:これらのモデルは、詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:これらのモデルは、画像データの抽出、解釈、および要約に使用できます。
- 研究と教育:
- 自然言語処理 (NLP) とVLM研究:これらのモデルは、研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野を発展させるための基礎として使用できます。
- 言語学習ツール:文法の修正や書き方のアドバイスを提供し、インタラクティブな言語学習体験をサポートします。
ライセンス
gemma








