モデル概要
モデル特徴
モデル能力
使用事例
license: gemma pipeline_tag: text-generation license_link: LICENSE quantized_by: bartowski base_model: google/gemma-3-4b-pt tags:
- llamafile
Gemma 3 4B Instruct - llamafile
- モデル作成者: Google
- オリジナルモデル: google/gemma-3-4b-it
MozillaはGemma 3モデルをllamafileと呼ばれる実行可能な重みファイルにパッケージ化しました。これにより、Linux、MacOS、Windows、FreeBSD、OpenBSD、NetBSDシステム上でAMD64とARM64の両アーキテクチャにおいて、最も簡単かつ迅速にモデルを使用できるようになります。
ソフトウェア最終更新日: 2025-03-31 Llamafileバージョン: 0.9.2
クイックスタート
開始するには、Gemma 3の重みファイルとllamafileソフトウェアの両方が必要です。これらは単一ファイルに含まれており、以下のようにダウンロードして実行できます:
wget https://huggingface.co/Mozilla/gemma-3-4b-it-llamafile/resolve/main/google_gemma-3-4b-it-Q6_K.llamafile
chmod +x google_gemma-3-4b-it-Q6_K.llamafile
./google_gemma-3-4b-it-Q6_K.llamafile
これらのllamafileのデフォルト動作モードは、新しいコマンドラインチャットボットインターフェースです。
使用方法
複数行の質問をするには三重引用符を使用できます。/stats
や/context
などのコマンドを渡してランタイムステータス情報を表示できます。-p "新しいシステムプロンプト"
フラグを渡してシステムプロンプトを変更できます。CTRL-Cでモデルの生成を中断し、CTRL-Dで終了できます。
Web GUIを希望する場合は、--server
モードが提供されており、ブラウザでチャットボットと補完インターフェースが開きます。追加のヘルプが必要な場合は--help
フラグを渡してください。サーバーにはOpenAI API互換の補完エンドポイントもあり、Pythonのopenai
パッケージを使用してアクセスできます。
./google_gemma-3-4b-it-Q6_K.llamafile --server
シェルスクリプトに有用な高度なCLIモードも提供されており、--cli
フラグを渡して使用できます。使用方法の詳細は--help
フラグを渡してください。
./google_gemma-3-4b-it-Q6_K.llamafile --cli -p 'four score and seven' --log-disable
トラブルシューティング
問題が発生した場合は、READMEの"Gotchas"セクションを参照してください。
Linuxでrun-detectorエラーを回避するには、APEインタプリタをインストールします:
sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
sudo sh -c "echo ':APE-jart:M::jartsr::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
Windowsでは実行ファイルサイズに4GBの制限があります。
コンテキストウィンドウ
このモデルの最大コンテキストウィンドウサイズは128kトークンです。デフォルトでは8192トークンのコンテキストウィンドウサイズが使用されます。-c 0
フラグを渡すことで最大コンテキストサイズを使用できます。これは小さな本に十分なサイズです。本との対話を可能にするには、-f book.txt
フラグを使用できます。
GPUアクセラレーション
十分なRAMを搭載したGPUでは、-ngl 999
フラグを渡してシステムのNVIDIAまたはAMD GPUを使用できます。Windowsでは、NVIDIA GPUの場合グラフィックスドライバーのみをインストールすれば十分です。AMD GPUの場合は、ROCm SDK v6.1をインストールし、初回実行時に--recompile --gpu amd
フラグを渡してください。
NVIDIA GPUでは、デフォルトでprebuilt tinyBLASライブラリが行列乗算に使用されます。これはオープンソースソフトウェアですが、クローズドソースのcuBLASほど高速ではありません。システムにCUDA SDKがインストールされている場合、--recompile
フラグを渡してGGML CUDAライブラリをビルドし、cuBLASを使用して最大パフォーマンスを得られます。
詳細はllamafile READMEを参照してください。
llamafileについて
llamafileはMozillaが2023年11月20日に導入した新しいフォーマットです。Cosmopolitan Libcを使用してLLM重みを実行可能なllama.cppバイナリに変換し、AMD64とARM64の6つのOSで動作します。
Gemma 3 モデルカード
モデルページ: Gemma
リソースと技術文書:
利用規約: 規約
著者: Google DeepMind
モデル情報
概要説明と入出力の簡潔な定義。
説明
GemmaはGoogleが作成した軽量で最先端のオープンモデルファミリーで、Geminiモデルの作成に使用されたのと同じ研究と技術から構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理しテキストを生成します。事前学習済みバリアントと指示チューニングバリアントの両方のオープンウェイトを提供します。Gemma 3は128Kの大きなコンテキストウィンドウ、140以上の言語での多言語サポート、以前のバージョンより多くのサイズで利用可能です。Gemma 3モデルは質問応答、要約、推論など様々なテキスト生成と画像理解タスクに適しています。比較的小さいサイズのため、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなどリソースが限られた環境での展開が可能で、最先端のAIモデルへのアクセスを民主化し、すべての人のためのイノベーションを促進します。
入力と出力
-
入力:
- 質問、プロンプト、要約する文書などのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズでは128Kトークン、1Bサイズでは32Kトークンの総入力コンテキスト
-
出力:
- 入力に対する応答として生成されたテキスト(質問への回答、画像内容の分析、文書の要約など)
- 8192トークンの総出力コンテキスト
使用方法
以下に、モデルをすぐに実行するためのコードスニペットを示します。まず、Transformersライブラリをインストールします。Gemma 3はtransformers 4.50.0以降でサポートされています。
$ pip install -U transformers
次に、ユースケースに関連するセクションからスニペットをコピーします。
pipeline
APIでの実行
指示チューニング済みモデルでは、まずチャットテンプレートを使用して入力を処理する必要があります。その後、パイプラインに渡せます。
from transformers import pipeline
pipe = pipeline("text-generation", model="google/gemma-3-4b-it", device="cuda", torch_dtype=torch.bfloat16)
messages = [
[
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."},]
},
{
"role": "user",
"content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
},
],
]
output = pipe(messages, max_new_tokens=50)
シングル/マルチGPUでのモデル実行
from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM
import torch
model_id = "google/gemma-3-4b-it"
quantization_config = BitsAndBytesConfig(load_in_8bit=True)
model = Gemma3ForCausalLM.from_pretrained(
model_id, quantization_config=quantization_config
).eval()
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
[
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."},]
},
{
"role": "user",
"content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
},
],
]
inputs = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device).to(torch.bfloat16)
with torch.inference_mode():
outputs = model.generate(**inputs, max_new_tokens=64)
outputs = tokenizer.batch_decode(outputs)
引用
@article{gemma_2025,
title={Gemma 3},
url={https://goo.gle/Gemma3Report},
publisher={Kaggle},
author={Gemma Team},
year={2025}
}
モデルデータ
モデルトレーニングに使用されたデータとデータ処理方法。
トレーニングデータセット
これらのモデルは、様々なソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークン、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は以下の通りです:
- ウェブ文書: 多様なウェブテキストのコレクションにより、モデルは広範な言語スタイル、トピック、語彙に触れます。トレーニングデータセットには140以上の言語のコンテンツが含まれます。
- コード: コードに触れることで、モデルはプログラミング言語の構文とパターンを学習し、コード生成とコード関連質問の理解能力が向上します。
- 数学: 数学的テキストのトレーニングにより、モデルは論理的推論、記号表現、数学的クエリへの対応を学習します。
- 画像: 多様な画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。
これらの多様なデータソースの組み合わせは、様々なタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。
データ前処理
トレーニングデータに適用された主なデータクリーニングとフィルタリング方法:
- CSAMフィルタリング: 有害で違法なコンテンツを除外するため、データ準備プロセスの複数段階で厳格なCSAM(児童性的虐待素材)フィルタリングが適用されました。
- 機密データフィルタリング: Gemma事前学習モデルを安全で信頼性の高いものにするため、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングする自動技術が使用されました。
- その他の方法: 当社のポリシーに沿ったコンテンツ品質と安全性に基づくフィルタリング。
実装情報
モデル内部の詳細。
ハードウェア
GemmaはTensor Processing Unit (TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用してトレーニングされました。視覚言語モデル(VLM)のトレーニングには多大な計算リソースが必要です。機械学習で一般的な行列演算用に特別に設計されたTPUには、この領域でいくつかの利点があります:
- パフォーマンス: TPUはVLMトレーニングに関わる大規模な計算を処理するように特別に設計されており、CPUと比較してトレーニングを大幅に高速化できます。
- メモリ: TPUには多くの場合、大容量の高帯域幅メモリが搭載されており、トレーニング中の大規模モデルとバッチサイズの処理が可能で、モデル品質の向上につながります。
- スケーラビリティ: TPU Pod(TPUの大規模クラスタ)は、大規模基盤モデルの複雑さの増大に対処するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させ、より高速で効率的な処理が可能です。
- コスト効率: 多くのシナリオで、TPUは特にトレーニング時間とリソースの節約を考慮すると、CPUベースのインフラストラクチャと比較して大規模モデルのトレーニングによりコスト効率の高いソリューションを提供できます。
- これらの利点はGoogleの持続可能な運用への取り組みと一致しています。
ソフトウェア
トレーニングはJAXとML Pathwaysを使用して行われました。
JAXにより、研究者はTPUを含む最新世代のハードウェアを活用し、大規模モデルのより高速で効率的なトレーニングが可能になります。ML PathwaysはGoogleの、複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みです。これは特に、これらのような大規模言語モデルを含む基盤モデルに適しています。
JAXとML Pathwaysは、Geminiモデルファミリーに関する論文で説明されているように使用されます。「JaxとPathwaysの『シングルコントローラ』プログラミングモデルにより、単一のPythonプロセスでトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」
評価
モデル評価指標と結果。
ベンチマーク結果
これらのモデルは、テキスト生成の様々な側面をカバーする多数の異なるデータセットと指標に対して評価されました:
推論と事実性
ベンチマーク | 指標 | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
[HellaSwag][hellaswag] | 10-shot | 62.3 | 77.2 | 84.2 | 85.6 |
[BoolQ][boolq] | 0-shot | 63.2 | 72.3 | 78.8 | 82.4 |
[PIQA][piqa] | 0-shot | 73.8 | 79.6 | 81.8 | 83.3 |
[SocialIQA][socialiqa] | 0-shot | 48.9 | 51.9 | 53.4 | 54.9 |
[TriviaQA][triviaqa] | 5-shot | 39.8 | 65.8 | 78.2 | 85.5 |
[Natural Questions][naturalq] | 5-shot | 9.48 | 20.0 | 31.4 | 36.1 |
[ARC-c][arc] | 25-shot | 38.4 | 56.2 | 68.9 | 70.6 |
[ARC-e][arc] | 0-shot | 73.0 | 82.4 | 88.3 | 89.0 |
[WinoGrande][winogrande] | 5-shot | 58.2 | 64.7 | 74.3 | 78.8 |
[BIG-Bench Hard][bbh] | few-shot | 28.4 | 50.9 | 72.6 | 77.7 |
[DROP][drop] | 1-shot | 42.4 | 60.1 | 72.2 | 77.2 |
STEMとコード
ベンチマーク | 指標 | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MMLU][mmlu] | 5-shot | 59.6 | 74.5 | 78.6 |
[MMLU][mmlu] (Pro COT) | 5-shot | 29.2 | 45.3 | 52.2 |
[AGIEVal][agieval] | 3-5-shot | 42.1 | 57.4 | 66.2 |
[MATH][math] | 4-shot | 24.2 | 43.3 | 50.0 |
[GSM8K][gsm8k] | 8-shot | 38.4 | 71.0 | 82.6 |
[GPQA][gpqa] | 5-shot | 15.0 | 25.4 | 24.3 |
[MBPP][mbpp] | 3-shot | 46.0 | 60.4 | 65.6 |
[HumanEval][humaneval] | 0-shot | 36.0 | 45.7 | 48.8 |
多言語
ベンチマーク | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
[MGSM][mgsm] | 2.04 | 34.7 | 64.3 | 74.3 |
[Global-MMLU-Lite][global-mmlu-lite] | 24.9 | 57.0 | 69.4 | 75.7 |
[WMT24++][wmt24pp] (ChrF) | 36.7 | 48.4 | 53.9 | 55.7 |
[FloRes][flores] | 29.5 | 39.2 | 46.0 | 48.8 |
[XQuAD][xquad] (all) | 43.9 | 68.0 | 74.5 | 76.8 |
[ECLeKTic][eclektic] | 4.69 | 11.0 | 17.2 | 24.4 |
[IndicGenBench][indicgenbench] | 41.4 | 57.2 | 61.7 | 63.4 |
マルチモーダル
ベンチマーク | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
[COCOcap][coco-cap] | 102 | 111 | 116 |
[DocVQA][docvqa] (val) | 72.8 | 82.3 | 85.6 |
[InfoVQA][info-vqa] (val) | 44.1 | 54.8 | 59.4 |
[MMMU][mmmu] (pt) | 39.2 | 50.3 | 56.1 |
[TextVQA][textvqa] (val) | 58.9 | 66.5 | 68.6 |
[RealWorldQA][realworldqa] | 45.5 | 52.2 | 53.9 |
[ReMI][remi] | 27.3 | 38.5 | 44.8 |
[AI2D][ai2d] | 63.2 | 75.2 | 79.0 |
[ChartQA][chartqa] | 63.6 | 74.7 | 76.3 |
[VQAv2][vqav2] | 63.9 | 71.2 | 72.9 |
[BLINK][blinkvqa] | 38.0 | 35.9 | 39.6 |
[OKVQA][okvqa] | 51.0 | 58.7 | 60.2 |
[TallyQA][tallyqa] | 42.5 | 51.8 | 54.3 |
[SpatialSense VQA][ss-vqa] | 50.9 | 60.0 | 59.4 |
[CountBenchQA][countbenchqa] | 26.1 | 17.8 | 68.0 |
倫理と安全性
倫理と安全性の評価アプローチと結果。
評価アプローチ
評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間評価指標を持つ複数のチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くの異なるカテゴリに対して評価されました:
- 児童安全: 児童性的虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- コンテンツ安全: ハラスメント、暴力と流血、ヘイトスピーチを含む安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
- 表現的害悪: バイアス、ステレオタイプ化、有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキスト、画像からテキストのプロンプトの評価。
開発レベルの評価に加えて、リリースに関する責任あるガバナンスの意思決定を通知するための「保証評価」を実施しています。これらはモデル開発チームから独立して実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過剰適合を防ぎ、意思決定を通知する結果の能力を保持します。保証評価結果はリリースレビューの一環として当社の責任と安全評議会に報告されます。
評価結果
すべての安全テスト領域において、児童安全、コンテンツ安全、表現的害悪のカテゴリで以前のGemmaモデルと比較して大幅な改善が見られました。すべてのテストは安全性フィルタなしで実施され、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキストの両方で、すべてのモデルサイズにおいて、ポリシー違反は最小限であり、根拠のない推論に関して以前のGemmaモデルのパフォーマンスと比較して大幅な改善が見られました。評価の制限として、英語のプロンプトのみが含まれていました。
使用と制限
これらのモデルにはユーザーが認識すべき特定の制限があります。
意図された使用法
オープンな視覚言語モデル(VLM)は、様々な業界と領域で幅広い用途があります。以下の潜在的な使用例のリストは包括的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一部として考慮した可能な使用例に関する文脈情報を提供することです。
- コンテンツ作成とコミュニケーション
- テキスト生成: 詩、スクリプト、コード、マーケティングコピー、メール草案などの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: カスタマーサービス、仮想アシスタント、またはインタラクティブアプリケーションのための会話インターフェースを強化します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: テキスト通信のための視覚データの抽出、解釈、要約に使用できます。
- 研究と教育
- 自然言語処理(NLP)とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能できます。
- 言語学習ツール: 文法修正やライティング練習を支援するインタラクティブな言語学習体験をサポートします。
- 知識探索: 特定のトピックに関する要約を生成したり質問に答えたりすることで、研究者が大量のテキストを探索するのを支援します。
制限
- トレーニングデータ
- トレーニングデータの品質と多様性はモデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
- コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム化できるタスクの方が優れています。開放的なまたは非常に複雑なタスクは難しいかもしれません。
- モデルのパフォーマンスは、提供されるコンテキストの量(ある程度までは長いコンテキストがより良い出力につながる)に影響される可能性があります。
- 言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、比喩的な言語を理解するのに苦労するかもしれません。
- 事実の正確性
- モデルはトレーニングデータセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。不正確または時代遅れの事実陈述を生成する可能性があります。
- 常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的推論を適用する能力が欠けているかもしれません。
倫理的考慮事項とリスク
視覚言語モデル(VLM)の開発はいくつかの倫理的懸念を引き起こします。オープンモデルを作成するにあたり、以下の点を慎重に考慮しました:
- バイアスと公平性
- 大規模な実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは慎重な審査、このカードで説明された入力データ前処理、および報告された事後評価を受けました。
- 誤情報と誤用
- VLMは、虚偽、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- モデルを使用するための責任ある使用ガイドラインが責任ある生成AIツールキットで提供されています。
- 透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、能力、制限、評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、AIエコシステム全体の開発者と研究者がVLM技術にアクセスできるようにすることで、イノベーションを共有する機会を提供します。
特定されたリスクと緩和策:
- バイアスの永続化: 継続的な監視(評価指標、人間によるレビューを使用)と、モデルのトレーニング、ファインチューニング、その他の使用ケースにおけるバイアス除去技術の探索が推奨されます。
- 有害なコンテンツの生成: コンテンツ安全のためのメカニズムとガイドラインが不可欠です。開発者は特定の製品ポリシーとアプリケーション使用ケースに基づいて適切なコンテンツ安全保護を実装するよう注意を払うことが推奨されます。
- 悪意のある目的での誤用: 技術的制限と開発者およびエンドユーザー教育は、VLMの悪意のあるアプリケーションに対する緩和に役立ちます。教育リソースとユーザーが誤用を報告するための報告メカニズムが提供されています。Gemmaモデルの禁止使用はGemma禁止使用ポリシーで概説されています。
- プライバシー侵害: モデルは、特定の個人情報やその他の機密データを除去するためにフィルタリングされたデータでトレーニングされました。開発者はプライバシー保護技術でプライバシー規制を遵守することが推奨されます。
利点
リリース時点で、このモデルファミリーは、責任あるAI開発のために最初から設計された高性能なオープン視覚言語モデルの実装を提供し、同サイズのモデルと比較して優れています。
この文書で説明されているベンチマーク評価指標を使用すると、これらのモデルは他の同サイズのオープンモデル代替品と比較して優れたパフォーマンスを提供することが示されています。









