🚀 Gemma 3モデル微調整プロジェクト
このプロジェクトは、Gemma 3モデルの微調整に焦点を当てています。Unslothツールを利用することで、ユーザーは無料でGemma 3 (12B) を微調整できます。また、GGUF、4ビット、16ビットなど、さまざまな形式のGemma 3モデルを提供し、さまざまなシナリオのニーズに対応しています。
🚀 クイックスタート
- こちらをクリックして、Google Colabノートブックを使って無料でGemma 3 (12B) を微調整しましょう。
- Gemma 3のサポートに関するブログを読む:unsloth.ai/blog/gemma3。
- ドキュメントで他のノートブックを確認します。
- 微調整したモデルをGGUF、Ollama、llama.cpp、またはHF形式でエクスポートします。
モデルのサポート状況
Unslothがサポートするモデル |
無料ノートブックのリンク |
パフォーマンス向上 |
メモリ使用量削減 |
GRPO with Gemma 3 (12B) |
Colabで起動 |
2倍の高速化 |
80% |
Llama - 3.2 (3B) |
Colabで起動 |
2.4倍の高速化 |
58% |
Llama - 3.2 (11B vision) |
Colabで起動 |
2倍の高速化 |
60% |
Qwen2.5 (7B) |
Colabで起動 |
2倍の高速化 |
60% |
Phi - 4 (14B) |
Colabで起動 |
2倍の高速化 |
50% |
Mistral (7B) |
Colabで起動 |
2.2倍の高速化 |
62% |
✨ 主な機能
- マルチモーダル処理:Gemma 3モデルは、テキストと画像の入力をサポートし、テキストを出力します。質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。
- 大規模なコンテキストウィンドウ:128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートします。
- リソースにやさしい:比較的小さなモデルサイズで、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイできます。
- セキュリティ向上:以前のGemmaモデルに比べて、子どもの安全、コンテンツの安全、表現上の危害などの面で大幅な改善が見られます。
📚 ドキュメント
Gemma 3モデルカード
- モデルページ:Gemma
- リソースと技術ドキュメント:
- [Gemma 3技術レポート][g3 - tech - report]
- [責任ある生成AIツールキット][rai - toolkit]
- [Kaggle上のGemma][kaggle - gemma]
- [VertexモデルライブラリのGemma 3][vertex - mg - gemma3]
- 利用規約:[規約][terms]
- 著者:Google DeepMind
モデル情報
説明
Gemmaは、Googleが開発した一連の軽量で最先端のオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と命令調整のバリエーションの重みはすべて公開されています。128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くのサイズが選択できます。Gemma 3モデルは、さまざまなテキスト生成と画像理解タスクに適しており、比較的小さなサイズであるため、リソースが限られた環境でもデプロイでき、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションを促進します。
入力と出力
- 入力:
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント。
- 画像は、896 x 896の解像度に正規化され、各画像は256個のトークンにエンコードされます。
- 4B、12B、27Bサイズの総入力コンテキストは128Kトークン、1Bサイズは32Kトークンです。
- 出力:
- 入力に対して生成されたテキスト、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力コンテキストは8192個のトークンです。
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
学習データセット
これらのモデルは、さまざまなソースのテキストデータセットで学習されています。27Bモデルは14兆個のトークンで学習され、12Bモデルは12兆個のトークン、4Bモデルは4兆個のトークン、1Bモデルは2兆個のトークンで学習されています。主な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語のコンテンツが含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
- 数学:数学的なテキストで学習することで、モデルは論理的な推論、記号表現、数学的なクエリの処理を学習します。
- 画像:幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。
データ前処理
学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています。
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待材料)フィルタリングを適用し、有害で違法なコンテンツを排除します。
- 機密データフィルタリング:Gemma事前学習モデルの安全性と信頼性を確保するための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の機密データをフィルタリングします。
- その他の方法:コンテンツの品質と安全性に基づいてフィルタリングし、[当社のポリシー][safety - policies]に準拠します。
実装情報
ハードウェア
Gemmaは、[テンソル処理ユニット (TPU)][tpu] ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。視覚言語モデル (VLM) の学習には大量の計算能力が必要です。TPUは、機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。
- パフォーマンス:VLMの学習に関わる大量の計算を専門的に処理し、CPUよりも大幅に学習速度を向上させます。
- メモリ:通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理でき、モデルの品質向上に役立ちます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供し、複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の高いソリューションを提供します。特に、高速な学習速度による時間とリソースの節約を考慮すると、その効果が顕著です。
- これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。
ソフトウェア
[JAX][jax]と[ML Pathways][ml - pathways]を使用して学習されています。JAXにより、研究者はTPUを含む最新のハードウェアを利用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築する最新の成果で、基礎モデルに特に適しています。
評価
ベンチマークテスト結果
これらのモデルは、テキスト生成のさまざまな側面を網羅するため、多数の異なるデータセットと指標で評価されています。
推論と事実性
ベンチマーク |
指標 |
Gemma 3 PT 1B |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[HellaSwag][hellaswag] |
10 - shot |
62.3 |
77.2 |
84.2 |
85.6 |
[BoolQ][boolq] |
0 - shot |
63.2 |
72.3 |
78.8 |
82.4 |
[PIQA][piqa] |
0 - shot |
73.8 |
79.6 |
81.8 |
83.3 |
[SocialIQA][socialiqa] |
0 - shot |
48.9 |
51.9 |
53.4 |
54.9 |
[TriviaQA][triviaqa] |
5 - shot |
39.8 |
65.8 |
78.2 |
85.5 |
[Natural Questions][naturalq] |
5 - shot |
9.48 |
20.0 |
31.4 |
36.1 |
[ARC - c][arc] |
25 - shot |
38.4 |
56.2 |
68.9 |
70.6 |
[ARC - e][arc] |
0 - shot |
73.0 |
82.4 |
88.3 |
89.0 |
[WinoGrande][winogrande] |
5 - shot |
58.2 |
64.7 |
74.3 |
78.8 |
[BIG - Bench Hard][bbh] |
few - shot |
28.4 |
50.9 |
72.6 |
77.7 |
[DROP][drop] |
1 - shot |
42.4 |
60.1 |
72.2 |
77.2 |
STEMとコード
ベンチマーク |
指標 |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[MMLU][mmlu] |
5 - shot |
59.6 |
74.5 |
78.6 |
[MMLU][mmlu] (Pro COT) |
5 - shot |
29.2 |
45.3 |
52.2 |
[AGIEval][agieval] |
3 - 5 - shot |
42.1 |
57.4 |
66.2 |
[MATH][math] |
4 - shot |
24.2 |
43.3 |
50.0 |
[GSM8K][gsm8k] |
8 - shot |
38.4 |
71.0 |
82.6 |
[GPQA][gpqa] |
5 - shot |
15.0 |
25.4 |
24.3 |
[MBPP][mbpp] |
3 - shot |
46.0 |
60.4 |
65.6 |
[HumanEval][humaneval] |
0 - shot |
36.0 |
45.7 |
48.8 |
多言語
ベンチマーク |
Gemma 3 PT 1B |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[MGSM][mgsm] |
2.04 |
34.7 |
64.3 |
74.3 |
[Global - MMLU - Lite][global - mmlu - lite] |
24.9 |
57.0 |
69.4 |
75.7 |
[WMT24++][wmt24pp] (ChrF) |
36.7 |
48.4 |
53.9 |
55.7 |
[FloRes][flores] |
29.5 |
39.2 |
46.0 |
48.8 |
[XQuAD][xquad] (all) |
43.9 |
68.0 |
74.5 |
76.8 |
[ECLeKTic][eclektic] |
4.69 |
11.0 |
17.2 |
24.4 |
[IndicGenBench][indicgenbench] |
41.4 |
57.2 |
61.7 |
63.4 |
マルチモーダル
ベンチマーク |
Gemma 3 PT 4B |
Gemma 3 PT 12B |
Gemma 3 PT 27B |
[COCOcap][coco - cap] |
102 |
111 |
116 |
[DocVQA][docvqa] (val) |
72.8 |
82.3 |
85.6 |
[InfoVQA][info - vqa] (val) |
44.1 |
54.8 |
59.4 |
[MMMU][mmmu] (pt) |
39.2 |
50.3 |
56.1 |
[TextVQA][textvqa] (val) |
58.9 |
66.5 |
68.6 |
[RealWorldQA][realworldqa] |
45.5 |
52.2 |
53.9 |
[ReMI][remi] |
27.3 |
38.5 |
44.8 |
[AI2D][ai2d] |
63.2 |
75.2 |
79.0 |
[ChartQA][chartqa] |
63.6 |
74.7 |
76.3 |
[VQAv2][vqav2] |
63.9 |
71.2 |
72.9 |
[BLINK][blinkvqa] |
38.0 |
35.9 |
39.6 |
[OKVQA][okvqa] |
51.0 |
58.7 |
60.2 |
[TallyQA][tallyqa] |
42.5 |
51.8 |
54.3 |
[SpatialSense VQA][ss - vqa] |
50.9 |
60.0 |
59.4 |
[CountBenchQA][countbenchqa] |
26.1 |
17.8 |
68.0 |
倫理とセキュリティ
評価方法
評価方法には、構造化評価と関連するコンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは、複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリで評価されており、以下のものが含まれます。
- 子どもの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの安全ポリシーを網羅し、児童性虐待と搾取を含みます。
- コンテンツの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを網羅し、嫌がらせ、暴力、血腥な内容、および憎悪発言を含みます。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを網羅し、偏見、固定観念、有害な関連付け、または不正確な情報を含みます。
開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンスの決定を行うための独立した内部評価です。これらの評価は、モデル開発チームとは別に行われ、リリース決定に情報を提供します。高レベルの評価結果はモデルチームにフィードバックされますが、プロンプトセットは公開されず、過学習を防ぎ、結果が決定に有効な情報を提供できるようにしています。保証評価の結果は、リリースレビューの一部として責任と安全委員会に報告されます。
評価結果
すべてのセキュリティテスト分野で、以前のGemmaモデルに比べて、子どもの安全、コンテンツの安全、表現上の危害などのカテゴリで大幅な改善が見られます。すべてのテストは、セキュリティフィルターを使用せずに行われ、モデルの能力と動作を評価しています。テキストからテキスト、画像からテキスト、およびすべてのモデルサイズについて、モデルが生成するポリシー違反は極めて少なく、以前のGemmaモデルに比べて、無根拠な推論に関しても大幅な改善が見られます。評価の限界の1つは、英語のプロンプトのみを含んでいることです。
使用と制限
想定される用途
オープンビジュアル言語モデル (VLM) は、さまざまな業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではなく、モデル作成者がモデルの学習と開発過程で考慮した可能なユースケースのコンテキスト情報を提供することを目的としています。
- コンテンツ作成とコミュニケーション:
- テキスト生成:詩、脚本、コード、マーケティングコピー、電子メール草稿など、創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI:カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約:テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出:視覚データの抽出、解釈、要約に使用し、テキストコミュニケーションに利用します。
- 研究と教育:
- 自然言語処理 (NLP) とVLM研究:研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野の発展を促進するための基礎として使用できます。
- 言語学習ツール:インタラクティブな言語学習体験をサポートし、文法の修正や書き方のアドバイスを提供します。
🔧 技術詳細
ハードウェア
Gemmaは、[テンソル処理ユニット (TPU)][tpu] ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。TPUは、機械学習で一般的な行列演算用に特別に設計されており、パフォーマンス、メモリ、拡張性、コスト効率などの面で利点があり、Googleの持続可能な運用へのコミットメントに合致しています。
ソフトウェア
[JAX][jax]と[ML Pathways][ml - pathways]を使用して学習されています。JAXにより、研究者は最新のハードウェアを利用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築する最新の成果で、基礎モデルに特に適しています。
📄 ライセンス
このプロジェクトは、Gemmaライセンスを使用しています。
⚠️ 重要提示
評価には英語のプロンプトのみが含まれており、一定の制限がある可能性があります。
💡 使用建议
モデルを使用する際には、当社のブログとドキュメントを参照して、Gemma 3のサポート情報と使用テクニックをさらに学ぶことができます。同時に、モデルの想定される用途と制限に注意して、より良い使用効果を得てください。