Gemma 3多モーダルオープンソースモデル - テキストと画像入力を無料で処理し、テキスト出力を生成する

ホーム

Gemma 3 27b It Qat Unsloth Bnb 4bit

unslothによって開発

Gemma 3はGoogleが開発した軽量級で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。

画像生成テキスト

Transformers

#マルチモーダル理解 #128K長文脈 #多言語生成

ダウンロード数 2,591

リリース時間 : 4/25/2025

モデル概要

Gemma 3はGeminiモデルと同じ研究に基づいて構築されたマルチモーダルモデルで、128Kの大きな文脈ウィンドウと140種類以上の言語をサポートし、テキスト生成、画像理解などの様々なタスクに適しています。

モデル特徴

マルチモーダル処理

テキストと画像の入力を同時に処理し、テキスト出力を生成することができます。

大きな文脈ウィンドウ

128Kトークンの文脈ウィンドウをサポートし、長文の処理に適しています。

多言語サポート

140種類以上の言語の処理をサポートします。

軽量級設計

比較的小さなモデルサイズで、リソースが限られた環境でのデプロイに適しています。

量子化感知トレーニング

QAT技術を採用し、メモリ要件を削減しながらモデルの品質を維持します。

モデル能力

テキスト生成

画像分析

多言語処理

コード生成

数学的推論

文書要約

ビジュアル質問応答

使用事例

コンテンツ作成と通信

クリエイティブライティング

詩、脚本、マーケティングコピーなどのクリエイティブテキストを生成します。

カスタマーサービスチャットボット

対話型のカスタマーサービスサポートを提供します。

画像コンテンツ分析

画像から情報を抽出し、説明的なテキストを生成します。

研究と教育

言語学習ツール

文法修正とライティング練習を支援します。

知識探索

特定のトピックに関する要約と質問応答を生成します。

## 🚀 Gemma 3モデルカード

Gemma 3は、Googleによる軽量で最先端のオープンモデルです。Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築され、多言語対応で多様なタスクに適しています。

## 🚀 クイックスタート

このリポジトリは、量子化認識トレーニング（QAT）を使用したGemma 3モデルの27B **命令調整済み** バージョンに対応しています。

> ⚠️ **重要提示**
> 
> このリポジトリ内のチェックポイントは量子化されていません。お使いの好みのツールでQ4_0で量子化することを確認してください。

> 💡 **使用アドバイス**
> 
> QATにより、モデルは`bfloat16`と同様の品質を維持しながら、モデルをロードするためのメモリ要件を大幅に削減することができます。

**モデルページ**: [Gemma](https://ai.google.dev/gemma/docs/core)

**リソースと技術ドキュメント**:

* [Gemma 3技術レポート][g3-tech-report]
* [責任ある生成AIツールキット][rai-toolkit]
* [Kaggle上のGemma][kaggle-gemma]
* [Vertex Model Garden上のGemma][vertex-mg-gemma3]

**利用規約**: [利用規約][terms]

**作成者**: Google DeepMind

## ✨ 主な機能

### モデル情報
#### 説明
Gemmaは、Googleによる軽量で最先端のオープンモデルファミリーです。Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習バリアントと命令調整済みバリアントの両方のオープンウェイトがあります。Gemma 3は、128Kの大きなコンテキストウィンドウを持ち、140以上の言語をサポートし、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズのため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなどのリソースが限られた環境でも展開でき、最先端のAIモデルへのアクセスを民主化し、誰もがイノベーションを促進するのに役立ちます。

#### 入力と出力
- **入力**:
    - 質問、プロンプト、または要約するドキュメントなどのテキスト文字列
    - 896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされた画像
    - 4B、12B、および27Bサイズの場合は合計128Kトークンの入力コンテキスト、1Bサイズの場合は32Kトークン

- **出力**:
    - 入力に対する生成されたテキスト、例えば質問への回答、画像コンテンツの分析、またはドキュメントの要約
    - 合計8192トークンの出力コンテキスト

#### 引用
```none
@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルデータ

トレーニングデータセット

これらのモデルは、幅広いソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークンでトレーニングされ、12Bモデルは12兆トークンで、4Bモデルは4兆トークンで、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は以下の通りです。

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、および語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
コード: モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コードを生成したり、コード関連の質問を理解する能力が向上します。
数学: 数学的なテキストでトレーニングすることで、モデルは論理的な推論、記号表現を学習し、数学的なクエリに対応できるようになります。
画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。

これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。

データ前処理

トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです。

CSAMフィルタリング: データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待素材）フィルタリングが適用され、有害で違法なコンテンツの排除が確保されます。
機密データフィルタリング: Gemmaの事前学習モデルを安全かつ信頼性の高いものにするため、自動化された手法を使用して、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングしました。
追加の方法: [当社のポリシー][safety-policies]に沿ったコンテンツ品質と安全性に基づくフィルタリング。

実装情報

ハードウェア

Gemmaは、[テンソル処理ユニット（TPU）][tpu]ハードウェア（TPUv4p、TPUv5p、およびTPUv5e）を使用してトレーニングされました。ビジョン言語モデル（VLM）のトレーニングには大量の計算能力が必要です。機械学習で一般的な行列演算を専用に設計されたTPUは、この分野でいくつかの利点を提供します。

パフォーマンス: TPUは、VLMのトレーニングに関与する大量の計算を処理するように特別に設計されています。CPUと比較して、トレーニングを大幅に高速化することができます。
メモリ: TPUには多くの場合、大量の高帯域幅メモリが搭載されており、トレーニング中に大きなモデルとバッチサイズを処理できます。これにより、モデルの品質を向上させることができます。
スケーラビリティ: TPUポッド（TPUの大規模クラスター）は、大規模な基礎モデルの複雑さの増加に対応するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させることで、より高速かつ効率的な処理が可能です。
コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、大規模なモデルのトレーニングにコスト効率の高いソリューションを提供できます。特に、高速なトレーニングによって節約される時間とリソースを考慮すると、その効果が顕著です。
これらの利点は、[Googleの持続可能な運用へのコミットメント][sustainability]と一致しています。

ソフトウェア

トレーニングは、[JAX][jax]と[ML Pathways][ml-pathways]を使用して行われました。

JAXにより、研究者はTPUを含む最新世代のハードウェアを活用して、大規模なモデルをより高速かつ効率的にトレーニングすることができます。ML Pathwaysは、Googleが複数のタスクにまたがって汎化できる人工知能システムを構築するための最新の取り組みです。これは、このような大規模言語モデルを含む基礎モデルに特に適しています。

JAXとML Pathwaysは、[Geminiモデルファミリーに関する論文][gemini-2-paper]で説明されているように使用されます。「JaxとPathwaysの 'シングルコントローラ' プログラミングモデルにより、単一のPythonプロセスがトレーニング全体を調整でき、開発ワークフローが大幅に簡素化されます。」

評価

⚠️ 重要提示

このセクションの評価は、元のチェックポイントに対応しており、QATチェックポイントではありません。

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリックに対して評価されました。

推論と事実性

ベンチマーク	メトリック	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[HellaSwag][hellaswag]	10-shot	62.3	77.2	84.2	85.6
[BoolQ][boolq]	0-shot	63.2	72.3	78.8	82.4
[PIQA][piqa]	0-shot	73.8	79.6	81.8	83.3
[SocialIQA][socialiqa]	0-shot	48.9	51.9	53.4	54.9
[TriviaQA][triviaqa]	5-shot	39.8	65.8	78.2	85.5
[Natural Questions][naturalq]	5-shot	9.48	20.0	31.4	36.1
[ARC-c][arc]	25-shot	38.4	56.2	68.9	70.6
[ARC-e][arc]	0-shot	73.0	82.4	88.3	89.0
[WinoGrande][winogrande]	5-shot	58.2	64.7	74.3	78.8
[BIG-Bench Hard][bbh]	few-shot	28.4	50.9	72.6	77.7
[DROP][drop]	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	メトリック	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MMLU][mmlu]	5-shot	59.6	74.5	78.6
[MMLU][mmlu] (Pro COT)	5-shot	29.2	45.3	52.2
[AGIEval][agieval]	3 - 5-shot	42.1	57.4	66.2
[MATH][math]	4-shot	24.2	43.3	50.0
[GSM8K][gsm8k]	8-shot	38.4	71.0	82.6
[GPQA][gpqa]	5-shot	15.0	25.4	24.3
[MBPP][mbpp]	3-shot	46.0	60.4	65.6
[HumanEval][humaneval]	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[MGSM][mgsm]	2.04	34.7	64.3	74.3
[Global-MMLU-Lite][global-mmlu-lite]	24.9	57.0	69.4	75.7
[WMT24++][wmt24pp] (ChrF)	36.7	48.4	53.9	55.7
[FloRes][flores]	29.5	39.2	46.0	48.8
[XQuAD][xquad] (all)	43.9	68.0	74.5	76.8
[ECLeKTic][eclektic]	4.69	11.0	17.2	24.4
[IndicGenBench][indicgenbench]	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
[COCOcap][coco-cap]	102	111	116
[DocVQA][docvqa] (val)	72.8	82.3	85.6
[InfoVQA][info-vqa] (val)	44.1	54.8	59.4
[MMMU][mmmu] (pt)	39.2	50.3	56.1
[TextVQA][textvqa] (val)	58.9	66.5	68.6
[RealWorldQA][realworldqa]	45.5	52.2	53.9
[ReMI][remi]	27.3	38.5	44.8
[AI2D][ai2d]	63.2	75.2	79.0
[ChartQA][chartqa]	63.6	74.7	76.3
[VQAv2][vqav2]	63.9	71.2	72.9
[BLINK][blinkvqa]	38.0	35.9	39.6
[OKVQA][okvqa]	51.0	58.7	60.2
[TallyQA][tallyqa]	42.5	51.8	54.3
[SpatialSense VQA][ss-vqa]	50.9	60.0	59.4
[CountBenchQA][countbenchqa]	26.1	17.8	68.0

倫理と安全性

評価アプローチ

当社の評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれています。レッドチーミングは、それぞれ異なる目標と人間による評価メトリックを持つ複数の異なるチームによって実施されました。これらのモデルは、倫理と安全性に関連するいくつかの異なるカテゴリに対して評価されました。

児童安全: 児童性虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキストへ、および画像からテキストへのプロンプトの評価。
コンテンツ安全: 嫌がらせ、暴力と残虐描写、および憎しみの言葉を含む安全ポリシーをカバーするテキストからテキストへ、および画像からテキストへのプロンプトの評価。
表現上の危害: バイアス、ステレオタイプ、および有害な関連付けまたは不正確さを含む安全ポリシーをカバーするテキストからテキストへ、および画像からテキストへのプロンプトの評価。

開発レベルの評価に加えて、当社は「保証評価」を実施しています。これは、責任あるガバナンスの意思決定のための「独立した」内部評価です。これらは、モデル開発チームとは別に実施され、リリースに関する意思決定に情報を提供します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持されて、過学習を防ぎ、結果が意思決定に役立つ能力を維持します。保証評価の結果は、リリースレビューの一環として当社の責任と安全理事会に報告されます。

評価結果

すべての安全テストの分野で、以前のGemmaモデルに比べて、児童安全、コンテンツ安全、および表現上の危害のカテゴリで大幅な改善が見られました。すべてのテストは、安全フィルターを使用せずに実施され、モデルの能力と動作を評価しました。テキストからテキスト、および画像からテキストの両方について、すべてのモデルサイズにわたって、モデルは最小限のポリシー違反を生じ、以前のGemmaモデルの性能に比べて、根拠のない推論に関して大幅な改善を示しました。当社の評価の制限は、英語のプロンプトのみを含んでいたことです。

使用法と制限事項

意図された使用法

オープンビジョン言語モデル（VLM）は、さまざまな産業や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一環として考慮した可能なユースケースに関するコンテキスト情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、脚本、コード、マーケティングコピー、および電子メール草稿などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの会話型インターフェースを強化します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、視覚データを抽出、解釈、および要約して、テキストコミュニケーションに使用できます。
研究と教育
- 自然言語処理（NLP）とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能できます。
- 言語学習ツール: 対話型の言語学習体験をサポートし、文法の修正やライティングの練習に役立ちます。
- 知識探索: 研究者が特定のトピックに関する要約を生成したり質問に答えたりすることで、大量のテキストを探索するのを支援します。

制限事項

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きな影響を与えます。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示で構成できるタスクでより優れた性能を発揮します。オープンエンドまたは非常に複雑なタスクは困難になる可能性があります。
- モデルの性能は、提供されるコンテキストの量に影響を受ける可能性があります（長いコンテキストは、ある程度までは一般的により良い出力をもたらします）。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは、微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
事実の正確性
- モデルは、トレーニングデータセットから学習した情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは古い事実陳述を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的な推論を適用する能力が欠けている可能性があります。

倫理的な考慮事項とリスク

ビジョン言語モデル（VLM）の開発にはいくつかの倫理的な懸念が生じます。オープンモデルを作成する際に、以下の点を慎重に考慮しました。

バイアスと公平性
- 大規模な実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは、慎重な精査を受け、このカードで説明されている入力データの前処理と事後評価が行われました。
誤情報と誤用
- VLMは、誤った、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルの責任ある使用のためのガイドラインが提供されています。責任ある使用ガイドラインを参照してください。

📄 ライセンス

このモデルは、gemmaライセンスの下で提供されています。

プロパティ	詳細
ベースモデル	google/gemma-3-27b-it-qat-q4_0-unquantized
ライセンス	gemma
タグ	gemma3、unsloth、gemma、google
パイプラインタグ	image-text-to-text
ライブラリ名	transformers


[g3-tech-report]: https://example.com/gemma3-tech-report
[rai-toolkit]: https://example.com/rai-toolkit
[kaggle-gemma]: https://example.com/kaggle-gemma
[vertex-mg-gemma3]: https://example.com/vertex-mg-gemma3
[terms]: https://example.com/terms
[safety-policies]: https://example.com/safety-policies
[tpu]: https://example.com/tpu
[jax]: https://example.com/jax
[ml-pathways]: https://example.com/ml-pathways
[gemini-2-paper]: https://example.com/gemini-2-paper
[hellaswag]: https://arxiv.org/abs/1905.07830
[boolq]: https://arxiv.org/abs/1905.10044
[piqa]: https://arxiv.org/abs/1911.11641
[socialiqa]: https://arxiv.org/abs/1904.09728
[triviaqa]: https://arxiv.org/abs/1705.03551
[naturalq]: https://github.com/google-research-datasets/natural-questions
[arc]: https://arxiv.org/abs/1911.01547
[winogrande]: https://arxiv.org/abs/1907.10641
[bbh]: https://paperswithcode.com/dataset/bbh
[drop]: https://arxiv.org/abs/1903.00161
[mmlu]: https://arxiv.org/abs/2009.03300
[agieval]: https://arxiv.org/abs/2304.06364
[math]: https://arxiv.org/abs/2103.03874
[gsm8k]: https://arxiv.org/abs/2110.14168
[gpqa]: https://arxiv.org/abs/2311.12022
[mbpp]: https://arxiv.org/abs/2108.07732
[humaneval]: https://arxiv.org/abs/2107.03374
[mgsm]: https://arxiv.org/abs/2210.03057
[flores]: https://arxiv.org/abs/2106.03193
[xquad]: https://arxiv.org/abs/1910.11856v3
[global-mmlu-lite]: https://huggingface.co/datasets/CohereForAI/Global-MMLU-Lite
[wmt24pp]: https://arxiv.org/abs/2502.12404v1
[eclektic]: https://arxiv.org/abs/2502.21228
[indicgenbench]: https://arxiv.org/abs/2404.16816
[coco-cap]: https://cocodataset.org/#home
[docvqa]: https://www.docvqa.org/
[info-vqa]: https://arxiv.org/abs/2104.12756
[mmmu]: https://arxiv.org/abs/2311.16502
[textvqa]: https://textvqa.org/
[realworldqa]: https://paperswithcode.com/dataset/realworldqa
[remi]: https://arxiv.org/html/2406.09175v1
[ai2d]: https://allenai.org/data/diagrams
[chartqa]: https://arxiv.org/abs/2203.10244
[vqav2]: https://visualqa.org/index.html
[blinkvqa]: https://arxiv.org/abs/2404.12390
[okvqa]: https://okvqa.allenai.org/
[tallyqa]: https://arxiv.org/abs/1810.12440
[ss-vqa]: https://arxiv.org/abs/1908.02660
[countbenchqa]: https://github.com/google-research/big_vision/blob/main/big_vision/datasets/countbenchqa/
[sustainability]: https://example.com/sustainability