Gemma 3 27b It Qat Q4 0 Gguf

googleによって開発

GemmaはGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力に対応しテキストを出力します。128Kの大規模コンテキストウィンドウと140以上の言語をサポートしています。

画像生成テキスト #マルチモーダル理解 #128K長文コンテキスト #多言語生成

ダウンロード数 69.29k

リリース時間 : 3/20/2025

モデル概要

Gemma 3はGeminiと同じ技術を基に構築されたマルチモーダルモデルで、事前学習版と指示チューニング版があり、質問応答、要約、推論など様々なタスクに適しています。量子化版はメモリ要件を低減しつつ性能を維持します。

モデル特徴

マルチモーダル対応

テキストと画像の両方の入力をサポートし、視覚的質問応答や画像キャプション生成などのクロスモーダルタスクを実行可能

大規模コンテキストウィンドウ

128Kトークンのコンテキストウィンドウで長文書や複雑なタスクの処理をサポート

量子化対応トレーニング

QAT技術で最適化されたGGUFフォーマットにより、メモリ要件を低減しながら元の精度に近い性能を維持

多言語能力

140以上の言語をカバーするトレーニングデータにより、強力な言語間理解と生成能力を備える

モデル能力

テキスト生成

画像内容分析

多言語テキスト処理

コード生成と理解

数学的推論

文書要約

視覚的質問応答

使用事例

コンテンツ生成

クリエイティブライティング

詩や物語などの創造的なテキストコンテンツを生成

文学的なスタイルに合致した一貫性のあるテキストを生成可能

技術文書要約

長い技術文書の簡潔な要約を自動生成

NLPベンチマークで優れた性能を発揮

視覚理解

画像キャプション生成

入力画像に対する自然言語の説明を生成

COCOcapベンチマークでスコア116を獲得

文書情報抽出

スキャン文書や画像から構造化情報を抽出

DocVQAベンチマークで85.6%の精度

教育支援

数学問題解答

数学問題を段階的に解決し推論過程を説明

GSM8Kベンチマークで82.6%の精度

プログラミング教育

プログラミング概念を説明しサンプルコードを生成

HumanEvalベンチマークで48.8%の通過率

license: gemma pipeline_tag: image-text-to-text extra_gated_heading: Hugging FaceでGemmaにアクセス extra_gated_prompt: >- Hugging FaceでGemmaにアクセスするには、Googleの利用規約を確認し同意する必要があります。これを行うには、Hugging Faceにログインしていることを確認し、以下をクリックしてください。リクエストは即座に処理されます。 extra_gated_button_content: 規約を承認 base_model: google/gemma-3-27b-it tags:

gemma
gemma3

Gemma 3 モデルカード

モデルページ: Gemma

[!Note] このリポジトリは、Gemma 3モデルの27Bサイズの指示チューニングバージョンをGGUFフォーマットでQuantization Aware Training (QAT)を使用して提供しています。 GGUFはQ4_0量子化に対応しています。

QATのおかげで、このモデルはbfloat16と同等の品質を維持しつつ、モデルのロードに必要なメモリ要件を大幅に削減しています。

半精度バージョンはこちらで見つけることができます。

リソースと技術ドキュメント:

利用規約: 規約

著者: Google DeepMind

モデル情報

概要説明と入力・出力の簡単な定義。

説明

Gemmaは、Googleが開発した軽量で最先端のオープンモデルファミリーです。Geminiモデルの作成に使用されたのと同じ研究と技術から構築されています。 Gemma 3モデルはマルチモーダルで、テキストと画像の入力を受け取りテキストを出力し、事前学習済みバリアントと指示チューニングバリアントの両方で重みが公開されています。Gemma 3は大きな128Kのコンテキストウィンドウ、140以上の言語での多言語サポート、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3 モデルは、質問応答、要約、推論など、さまざまなテキスト生成および画像理解タスクに適しています。比較的小さなサイズであるため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境に展開することが可能で、最先端のAIモデルへのアクセスを民主化し、すべての人のためのイノベーションを促進するのに役立ちます。

入力と出力

入力:
- 質問、プロンプト、要約するドキュメントなどのテキスト文字列
- 896 x 896の解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズでは128Kトークン、1Bサイズでは32Kトークンの総入力コンテキスト
出力:
- 入力に対する応答として生成されたテキスト。質問への回答、画像内容の分析、ドキュメントの要約など
- 8192トークンの総出力コンテキスト

使用方法

以下に、モデルをすぐに実行するためのいくつかのコードスニペットを示します。

llama.cpp (テキストのみ)

./llama-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "クラーケンについての詩を書いてください。"

llama.cpp (画像入力)

wget https://github.com/bebechien/gemma/blob/main/surprise.png?raw=true -O ~/Downloads/surprise.png
./llama-gemma3-cli -hf google/gemma-3-27b-it-qat-q4_0-gguf -p "この画像を説明してください。" --image ~/Downloads/surprise.png

ollama (テキストのみ)

現在、OllamaでHugging Face経由のGGUFを使用する場合、画像入力はサポートされていません。ゲート付きリポジトリの実行に関するドキュメントを確認してください。

ollama run hf.co/google/gemma-3-27b-it-qat-q4_0-gguf

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルデータ

モデルのトレーニングに使用されたデータとその処理方法。

トレーニングデータセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークン、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は以下の通りです:

Webドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれています。
コード: モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コードの生成とコード関連の質問の理解能力が向上します。
数学: 数学的なテキストでのトレーニングは、論理的推論、記号的表現、数学的クエリへの対応を学習するのに役立ちます。
画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。

これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。

データ前処理

トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです:

CSAMフィルタリング: 有害で違法なコンテンツを除外するために、データ準備プロセスの複数の段階で厳格なCSAM（児童性的虐待素材）フィルタリングが適用されました。
機密データフィルタリング: Gemma事前学習モデルを安全で信頼性の高いものにするために、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングする自動技術が使用されました。
その他の方法: ポリシーに沿ったコンテンツの品質と安全性に基づくフィルタリング。

実装情報

モデルの内部に関する詳細。

ハードウェア

GemmaはTensor Processing Unit (TPU)ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用してトレーニングされました。視覚言語モデル（VLM）のトレーニングには多大な計算能力が必要です。機械学習で一般的な行列演算に特化して設計されたTPUは、この領域でいくつかの利点を提供します:

パフォーマンス: TPUは、VLMのトレーニングに関連する大規模な計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
メモリ: TPUには多くの場合、大容量の高帯域幅メモリが搭載されており、トレーニング中の大規模なモデルとバッチサイズの処理が可能です。これにより、モデルの品質が向上します。
スケーラビリティ: TPU Pod（TPUの大規模クラスタ）は、大規模な基盤モデルの複雑さの増大に対処するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させ、より高速かつ効率的な処理が可能です。
コスト効率: 多くのシナリオで、TPUはCPUベースのインフラストラクチャと比較して、特にトレーニング時間とリソースの節約を考慮すると、大規模なモデルのトレーニングによりコスト効率の高いソリューションを提供できます。
これらの利点はGoogleの持続可能な運用への取り組みと一致しています。

ソフトウェア

トレーニングはJAXとML Pathwaysを使用して行われました。

JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模なモデルのより高速で効率的なトレーニングが可能になります。ML Pathwaysは、Googleの人工知能システムを複数のタスクにわたって一般化できるように構築する最新の取り組みです。これは、これらのような大規模言語モデルを含む基盤モデルに特に適しています。

JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。「JaxとPathwaysの『単一コントローラー』プログラミングモデルにより、単一のPythonプロセスがトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」

評価

モデルの評価指標と結果。

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標に対して評価されました:

推論と事実性

ベンチマーク	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3-5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理と安全性

倫理と安全性の評価アプローチと結果。

評価アプローチ

私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間の評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くの異なるカテゴリに対して評価されました:

児童の安全: 児童の安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。児童性的虐待や搾取を含みます。
コンテンツの安全: ハラスメント、暴力と流血、ヘイトスピーチなどの安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。
表現上の害: バイアス、ステレオタイプ、有害な関連付けや不正確さなどの安全ポリシーをカバーするテキストからテキスト、および画像からテキストのプロンプトの評価。

開発レベルの評価に加えて、責任あるガバナンスの意思決定に関する「保証評価」を実施しています。これらはモデル開発チームとは独立して実施され、リリースに関する意思決定を支援します。高レベルの結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過剰適合を防ぎ、意思決定を支援する結果の能力を維持します。保証評価の結果は、リリースレビューの一環として責任と安全評議会に報告されます。

評価結果

安全性テストのすべての領域で、児童の安全、コンテンツの安全、表現上の害のカテゴリにおいて、以前のGemmaモデルと比較して大幅な改善が見られました。すべてのテストは、モデルの能力と動作を評価するために安全性フィルターなしで実施されました。テキストからテキスト、画像からテキストの両方、およびすべてのモデルサイズにおいて、モデルは最小限のポリシー違反を生成し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスと比較して大幅な改善を示しました。私たちの評価の制限は、英語のプロンプトのみを含んでいたことです。

使用と制限

これらのモデルには、ユーザーが認識すべき特定の制限があります。

意図された使用法

オープンな視覚言語モデル（VLM）は、さまざまな業界やドメインで幅広い用途があります。以下の潜在的な使用例のリストは包括的なものではありません。このリストの目的は、モデルの作成者がモデルのトレーニングと開発の一部として考慮した可能な使用例に関する文脈情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティングコピー、メールの下書きなどの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: カスタマーサービス、仮想アシスタント、またはインタラクティブアプリケーションのための会話型インターフェースを強化します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、テキストコミュニケーションのために視覚データを抽出、解釈、要約するために使用できます。
研究と教育
- 自然言語処理（NLP）とVLM研究: これらのモデルは、研究者がVLMおよびNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能します。
- 言語学習ツール: 文法修正やライティング練習を提供することで、インタラクティブな言語学習体験をサポートします。
- 知識探索: 特定のトピックに関する要約を生成したり、質問に答えたりすることで、研究者が大規模なテキストを探索するのを支援します。

制限

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きな影響を与えます。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム化できるタスクでより優れています。オープンエンドまたは非常に複雑なタスクは難しい場合があります。
- モデルのパフォーマンスは、提供されるコンテキストの量（ある程度までは長いコンテキストがより良い出力につながる）に影響を受ける可能性があります。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労する可能性があります。
事実の正確性
- モデルはトレーニングデータセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。不正確または時代遅れの事実を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況では常識的な推論を適用できない場合があります。

倫理的考慮事項とリスク

視覚言語モデル（VLM）の開発は、いくつかの倫理的懸念を引き起こします。オープンモデルを作成するにあたり、私たちは以下の点を慎重に考慮しました:

バイアスと公平性
- 大規模な実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは、このカードで説明されている入力データの前処理と事後の評価を慎重に検討しました。
誤情報と悪用
- VLMは、虚偽、誤解を招く、または有害なテキストを生成するために悪用される可能性があります。
- モデルの責任ある使用に関するガイドラインは、責任ある生成AIツールキットで提供されています。
透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスに関する詳細をまとめています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者や研究者がVLM技術にアクセスできるようにすることで、イノベーションを共有する機会を提供します。

特定されたリスクと緩和策:

バイアスの永続化: 評価指標、人間のレビューを使用した継続的な監視と、モデルのトレーニング、ファインチューニング、その他の使用例におけるバイアス除去技術の探求が推奨されます。
有害なコンテンツの生成: コンテンツの安全のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用例に基づいて適切なコンテンツ安全対策を実施するよう注意を払うことが推奨されます。
悪意のある目的での悪用: 技術的な制限と開発者およびエンドユーザー教育は、VLMの悪意のあるアプリケーションを緩和するのに役立ちます。教育リソースとユーザーが悪用を報告するためのメカニズムが提供されています。Gemmaモデルの禁止された使用は、Gemma禁止使用ポリシーで概説されています。
プライバシー侵害: モデルは、特定の個人情報やその他の機密データを削除するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を用いてプライバシー規制に準拠することが推奨されます。