Gemma 3-12b-pt-bnb-4bitオープンソースモデル - マルチモーダル入力に対応した軽量级のテキスト生成ツール

ホーム

Gemma 3 12b Pt Bnb 4bit

unslothによって開発

Gemma 3はGoogleが発表した軽量オープンモデルシリーズで、Geminiと同じ技術を基に構築され、マルチモーダル入力とテキスト生成をサポートします。

画像生成テキスト

Transformers

英語#マルチモーダル処理 #128Kの大きなコンテキスト #多言語対応

ダウンロード数 2,509

リリース時間 : 3/14/2025

モデル概要

Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。さまざまなテキスト生成と画像理解タスクに適しています。128Kの大きなコンテキストウィンドウを持ち、140種類以上の言語をサポートし、リソース要件が比較的低いです。

モデル特徴

マルチモーダル処理

テキストと画像の入力をサポートし、画像記述生成やビジュアル質問応答などのクロスモーダルタスクを実行できます。

大きなコンテキストウィンドウ

128Kトークンのコンテキストウィンドウ（1Bバージョンは32K）で、長いドキュメントの処理をサポートします。

リソース効率が高い

比較的小さいモデルサイズで、消費者向けハードウェアで実行でき、メモリ使用量を80％削減します。

セキュリティ強化

子供の安全性、コンテンツの安全性、偏見の削減に関して、前代のモデルよりも大幅な改善が見られます。

多言語対応

140種類以上の言語をサポートし、非ラテン語系や低リソース言語も含まれます。

モデル能力

テキスト生成

画像内容分析

多言語翻訳

コード生成

数学的推論

ドキュメント要約

ビジュアル質問応答

クロスモーダル理解

使用事例

コンテンツ作成

マーケティングコピー生成

製品画像と簡単な説明に基づいて、自動的にマーケティングコピーを生成します。

コンテンツ作成の効率を向上させます。

脚本作成

シーンの説明に基づいて、脚本の断片を生成します。

カスタマーサービス

スマートカスタマーサービス

製品画像を含む顧客の問い合わせを処理します。

人工のカスタマーサービスの負荷を軽減します。

教育研究

学術論文要約

複雑な研究論文から重要な発見を抽出します。

HellaSwagベンチマークの10-shotで85.6点（27B）

プログラミング教育

コード断片を説明し、教育用のサンプルを生成します。

HumanEvalベンチマークの0-shotで48.8点（27B）

🚀 Gemma 3モデル微調整プロジェクト

このプロジェクトは、Gemma 3モデルの微調整に焦点を当てています。Unslothツールを利用することで、ユーザーは無料でGemma 3 (12B) を微調整できます。また、GGUF、4ビット、16ビットなど、さまざまな形式のGemma 3モデルを提供し、さまざまなシナリオのニーズに対応しています。

🚀 クイックスタート

こちらをクリックして、Google Colabノートブックを使って無料でGemma 3 (12B) を微調整しましょう。
Gemma 3のサポートに関するブログを読む：unsloth.ai/blog/gemma3。
ドキュメントで他のノートブックを確認します。
微調整したモデルをGGUF、Ollama、llama.cpp、またはHF形式でエクスポートします。

モデルのサポート状況

Unslothがサポートするモデル	無料ノートブックのリンク	パフォーマンス向上	メモリ使用量削減
GRPO with Gemma 3 (12B)	Colabで起動	2倍の高速化	80%
Llama - 3.2 (3B)	Colabで起動	2.4倍の高速化	58%
Llama - 3.2 (11B vision)	Colabで起動	2倍の高速化	60%
Qwen2.5 (7B)	Colabで起動	2倍の高速化	60%
Phi - 4 (14B)	Colabで起動	2倍の高速化	50%
Mistral (7B)	Colabで起動	2.2倍の高速化	62%

✨ 主な機能

マルチモーダル処理：Gemma 3モデルは、テキストと画像の入力をサポートし、テキストを出力します。質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。
大規模なコンテキストウィンドウ：128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートします。
リソースにやさしい：比較的小さなモデルサイズで、ノートパソコン、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境でもデプロイできます。
セキュリティ向上：以前のGemmaモデルに比べて、子どもの安全、コンテンツの安全、表現上の危害などの面で大幅な改善が見られます。

📚 ドキュメント

Gemma 3モデルカード

モデルページ：Gemma
リソースと技術ドキュメント：
- [Gemma 3技術レポート][g3 - tech - report]
- [責任ある生成AIツールキット][rai - toolkit]
- [Kaggle上のGemma][kaggle - gemma]
- [VertexモデルライブラリのGemma 3][vertex - mg - gemma3]
利用規約：[規約][terms]
著者：Google DeepMind

モデル情報

説明

Gemmaは、Googleが開発した一連の軽量で最先端のオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。事前学習と命令調整のバリエーションの重みはすべて公開されています。128Kの大規模なコンテキストウィンドウを持ち、140種類以上の言語をサポートし、以前のバージョンよりも多くのサイズが選択できます。Gemma 3モデルは、さまざまなテキスト生成と画像理解タスクに適しており、比較的小さなサイズであるため、リソースが限られた環境でもデプロイでき、より多くの人が最先端のAIモデルを利用できるようになり、イノベーションを促進します。

入力と出力

入力：
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント。
- 画像は、896 x 896の解像度に正規化され、各画像は256個のトークンにエンコードされます。
- 4B、12B、27Bサイズの総入力コンテキストは128Kトークン、1Bサイズは32Kトークンです。
出力：
- 入力に対して生成されたテキスト、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力コンテキストは8192個のトークンです。

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルデータ

学習データセット

これらのモデルは、さまざまなソースのテキストデータセットで学習されています。27Bモデルは14兆個のトークンで学習され、12Bモデルは12兆個のトークン、4Bモデルは4兆個のトークン、1Bモデルは2兆個のトークンで学習されています。主な構成要素は以下の通りです。

ウェブドキュメント：多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語のコンテンツが含まれています。
コード：モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
数学：数学的なテキストで学習することで、モデルは論理的な推論、記号表現、数学的なクエリの処理を学習します。
画像：幅広い画像により、モデルは画像分析と視覚データの抽出タスクを実行できます。

データ前処理

学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています。

CSAMフィルタリング：データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待材料）フィルタリングを適用し、有害で違法なコンテンツを排除します。
機密データフィルタリング：Gemma事前学習モデルの安全性と信頼性を確保するための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の機密データをフィルタリングします。
その他の方法：コンテンツの品質と安全性に基づいてフィルタリングし、[当社のポリシー][safety - policies]に準拠します。

実装情報

ハードウェア

Gemmaは、[テンソル処理ユニット (TPU)][tpu] ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して学習されています。視覚言語モデル (VLM) の学習には大量の計算能力が必要です。TPUは、機械学習で一般的な行列演算用に特別に設計されており、この分野で以下のような利点があります。

パフォーマンス：VLMの学習に関わる大量の計算を専門的に処理し、CPUよりも大幅に学習速度を向上させます。
メモリ：通常、大量の高帯域幅メモリを備えており、学習中に大規模なモデルとバッチサイズを処理でき、モデルの品質向上に役立ちます。
拡張性：TPU Pod（大型TPUクラスター）は、大型の基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供し、複数のTPUデバイスに学習を分散させることで、より高速かつ効率的な処理が可能です。
コスト効率：多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の高いソリューションを提供します。特に、高速な学習速度による時間とリソースの節約を考慮すると、その効果が顕著です。
これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]に合致しています。

ソフトウェア

[JAX][jax]と[ML Pathways][ml - pathways]を使用して学習されています。JAXにより、研究者はTPUを含む最新のハードウェアを利用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築する最新の成果で、基礎モデルに特に適しています。

評価

ベンチマークテスト結果

これらのモデルは、テキスト生成のさまざまな側面を網羅するため、多数の異なるデータセットと指標で評価されています。

推論と事実性

ベンチマーク	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10 - shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0 - shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0 - shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0 - shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5 - shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5 - shot	9.48	20.0	31.4	36.1
[ARC - c][arc]	25 - shot	38.4	56.2	68.9	70.6
[ARC - e][arc]	0 - shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5 - shot	58.2	64.7	74.3	78.8
[BIG - Bench Hard][bbh]	few - shot	28.4	50.9	72.6	77.7
[DROP][drop]	1 - shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5 - shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5 - shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5 - shot	42.1	57.4	66.2
[MATH][math]	4 - shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8 - shot	38.4	71.0	82.6
[GPQA][gpqa]	5 - shot	15.0	25.4	24.3
[MBPP][mbpp]	3 - shot	46.0	60.4	65.6
[HumanEval][humaneval]	0 - shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global - MMLU - Lite][global - mmlu - lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco - cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info - vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss - vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

倫理とセキュリティ

評価方法

評価方法には、構造化評価と関連するコンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは、複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリで評価されており、以下のものが含まれます。

子どもの安全：テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの安全ポリシーを網羅し、児童性虐待と搾取を含みます。
コンテンツの安全：テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを網羅し、嫌がらせ、暴力、血腥な内容、および憎悪発言を含みます。
表現上の危害：テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを網羅し、偏見、固定観念、有害な関連付け、または不正確な情報を含みます。

開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンスの決定を行うための独立した内部評価です。これらの評価は、モデル開発チームとは別に行われ、リリース決定に情報を提供します。高レベルの評価結果はモデルチームにフィードバックされますが、プロンプトセットは公開されず、過学習を防ぎ、結果が決定に有効な情報を提供できるようにしています。保証評価の結果は、リリースレビューの一部として責任と安全委員会に報告されます。

評価結果

すべてのセキュリティテスト分野で、以前のGemmaモデルに比べて、子どもの安全、コンテンツの安全、表現上の危害などのカテゴリで大幅な改善が見られます。すべてのテストは、セキュリティフィルターを使用せずに行われ、モデルの能力と動作を評価しています。テキストからテキスト、画像からテキスト、およびすべてのモデルサイズについて、モデルが生成するポリシー違反は極めて少なく、以前のGemmaモデルに比べて、無根拠な推論に関しても大幅な改善が見られます。評価の限界の1つは、英語のプロンプトのみを含んでいることです。

使用と制限

想定される用途

オープンビジュアル言語モデル (VLM) は、さまざまな業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではなく、モデル作成者がモデルの学習と開発過程で考慮した可能なユースケースのコンテキスト情報を提供することを目的としています。

コンテンツ作成とコミュニケーション：
- テキスト生成：詩、脚本、コード、マーケティングコピー、電子メール草稿など、創造的なテキスト形式の生成に使用できます。
- チャットボットと対話型AI：カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約：テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出：視覚データの抽出、解釈、要約に使用し、テキストコミュニケーションに利用します。
研究と教育：
- 自然言語処理 (NLP) とVLM研究：研究者がVLMとNLP技術を試験し、アルゴリズムを開発し、この分野の発展を促進するための基礎として使用できます。
- 言語学習ツール：インタラクティブな言語学習体験をサポートし、文法の修正や書き方のアドバイスを提供します。

🔧 技術詳細

ハードウェア

Gemmaは、[テンソル処理ユニット (TPU)][tpu] ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して学習されています。TPUは、機械学習で一般的な行列演算用に特別に設計されており、パフォーマンス、メモリ、拡張性、コスト効率などの面で利点があり、Googleの持続可能な運用へのコミットメントに合致しています。

ソフトウェア

[JAX][jax]と[ML Pathways][ml - pathways]を使用して学習されています。JAXにより、研究者は最新のハードウェアを利用して、大型モデルをより高速かつ効率的に学習できます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築する最新の成果で、基礎モデルに特に適しています。