Gemma 3 1b It Llamafile

Mozillaによって開発

GemmaはGoogleが提供する軽量オープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。llamafileバージョンはMozillaによって実行可能ファイルとしてパッケージ化されており、マルチプラットフォームでの利用が容易です。

テキスト生成画像 #マルチモーダル理解 #128K長文処理 #軽量デプロイ

ダウンロード数 469

リリース時間 : 3/31/2025

モデル概要

Gemma 3 1B Instructは軽量な指示調整モデルで、テキスト生成タスクをサポートし、128Kの大規模コンテキストウィンドウを備えており、リソースが限られた環境でのデプロイに適しています。

モデル特徴

マルチプラットフォームサポート

llamafileでパッケージ化されており、Linux、MacOS、Windowsなどの6つのシステムで動作し、AMD64とARM64アーキテクチャをサポートします。

大規模コンテキストウィンドウ

128Kトークンのコンテキストウィンドウをサポートし、短編小説全体の内容を処理できます。

GPUアクセラレーション

NVIDIAとAMD GPUのアクセラレーションをサポートし、-nglパラメータで有効にできます。

マルチモーダルサポート

テキストと画像入力（896x896解像度）を処理し、テキスト出力を生成できます。

モデル能力

テキスト生成

質問応答システム

ドキュメント要約

コード生成

画像内容分析

使用事例

コンテンツ作成

詩の作成

ユーザーのプロンプトに基づいて詩やその他の創造的なテキストを生成

テーマやスタイルに合った創造的なテキストを生成可能

知識質問応答

事実質問への回答

ユーザーが提出する様々な知識質問に回答

トレーニングデータに基づいた正確な回答を提供

コードアシスタント

コード生成と説明

説明に基づいてコードを生成したり、既存のコードを解説

複数のプログラミング言語のコードスニペットを生成可能

license: gemma pipeline_tag: text-generation license_link: LICENSE quantized_by: bartowski base_model: google/gemma-3-1b-pt tags:

llamafile

Gemma 3 1B Instruct - llamafile

モデル作成者: Google
オリジナルモデル: google/gemma-3-1b-it

MozillaはGemma 3モデルを実行可能な重みファイルにパッケージ化しました。これをllamafileと呼びます。これにより、Linux、MacOS、Windows、FreeBSD、OpenBSD、NetBSDシステムでAMD64とARM64の両方において、最も簡単かつ迅速にモデルを使用できます。

ソフトウェア最終更新日: 2025-03-31 Llamafileバージョン: 0.9.2

クイックスタート

開始するには、Gemma 3の重みとllamafileソフトウェアの両方が必要です。これらは単一のファイルに含まれており、以下のようにダウンロードして実行できます:

wget https://huggingface.co/Mozilla/gemma-3-1b-it-llamafile/resolve/main/google_gemma-3-1b-it-Q6_K.llamafile
chmod +x google_gemma-3-1b-it-Q6_K.llamafile
./google_gemma-3-1b-it-Q6_K.llamafile

これらのllamafileのデフォルト動作モードは、新しいコマンドラインチャットボットインターフェースです。

使用方法

複数行の質問をするには三重引用符を使用できます。/statsや/contextなどのコマンドを渡してランタイムステータス情報を確認できます。-p "新しいシステムプロンプト"フラグを渡してシステムプロンプトを変更できます。CTRL-Cでモデルを中断し、CTRL-Dで終了できます。

Web GUIを使用したい場合は、--serverモードが提供されており、ブラウザでチャットボットと補完インターフェースが開きます。使用方法の追加ヘルプが必要な場合は、--helpフラグを渡してください。サーバーにはPythonでopenai pipパッケージを使用してアクセスできるOpenAI API互換の補完エンドポイントもあります。

./google_gemma-3-1b-it-Q6_K.llamafile --server

シェルスクリプトに有用な高度なCLIモードが提供されています。--cliフラグを渡して使用できます。使用方法の追加ヘルプが必要な場合は、--helpフラグを渡してください。

./google_gemma-3-1b-it-Q6_K.llamafile --cli -p 'four score and seven' --log-disable

トラブルシューティング

問題が発生しましたか？ READMEの"Gotchas"セクションを参照してください。

Linuxでrun-detectorエラーを回避するには、APEインタプリタをインストールします。

sudo wget -O /usr/bin/ape https://cosmo.zip/pub/cosmos/bin/ape-$(uname -m).elf
sudo chmod +x /usr/bin/ape
sudo sh -c "echo ':APE:M::MZqFpD::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"
sudo sh -c "echo ':APE-jart:M::jartsr::/usr/bin/ape:' >/proc/sys/fs/binfmt_misc/register"

Windowsでは実行ファイルサイズに4GBの制限があります。

コンテキストウィンドウ

このモデルの最大コンテキストウィンドウサイズは128kトークンです。デフォルトでは8192トークンのコンテキストウィンドウサイズが使用されます。-c 0フラグを渡すことで最大コンテキストサイズを使用できます。これは小さな本に十分なサイズです。本と会話したい場合は、-f book.txtフラグを使用できます。

GPUアクセラレーション

十分なRAMを搭載したGPUでは、-ngl 999フラグを渡してシステムのNVIDIAまたはAMD GPUを使用できます。Windowsでは、NVIDIA GPUをお持ちの場合はグラフィックスカードドライバーのみをインストールする必要があります。WindowsでAMD GPUをお持ちの場合は、ROCm SDK v6.1をインストールし、初めてllamafileを実行する際に--recompile --gpu amdフラグを渡してください。

NVIDIA GPUでは、デフォルトでprebuilt tinyBLASライブラリが行列乗算に使用されます。これはオープンソースソフトウェアですが、クローズドソースのcuBLASほど高速ではありません。システムにCUDA SDKがインストールされている場合は、--recompileフラグを渡して、cuBLASを使用するGGML CUDAライブラリをシステム専用にビルドできます。これにより最大のパフォーマンスが得られます。

詳細については、llamafile READMEを参照してください。

llamafileについて

llamafileは、2023年11月20日にMozillaが導入した新しいフォーマットです。Cosmopolitan Libcを使用して、LLMの重みを実行可能なllama.cppバイナリに変換し、AMD64とARM64の両方で6つのOSの標準インストールで実行できます。

Gemma 3モデルカード

モデルページ: Gemma

リソースと技術文書:

Gemma 3技術レポート
[責任ある生成AIツールキット][rai-toolkit]
[KaggleのGemma][kaggle-gemma]
[Vertex Model GardenのGemma][vertex-mg-gemma3]

利用規約: [利用規約][terms]

著者: Google DeepMind

モデル情報

概要説明と入力・出力の簡単な定義。

説明

Gemmaは、Googleが作成した軽量で最先端のオープンモデルのファミリーで、Geminiモデルの作成に使用されたのと同じ研究と技術から構築されています。Gemma 3モデルはマルチモーダルで、テキストと画像の入力を処理し、テキスト出力を生成します。事前学習済みバリアントと命令チューニングバリアントの両方のオープンウェイトを提供します。Gemma 3は、128Kの大きなコンテキストウィンドウ、140以上の言語での多言語サポート、以前のバージョンよりも多くのサイズで利用可能です。Gemma 3モデルは、質問応答、要約、推論など、さまざまなテキスト生成と画像理解タスクに適しています。比較的小さなサイズにより、ラップトップ、デスクトップ、または独自のクラウドインフラストラクチャなど、リソースが限られた環境に展開することが可能で、最先端のAIモデルへのアクセスを民主化し、すべての人のためのイノベーションを促進します。

入力と出力

入力:
- 質問、プロンプト、または要約するドキュメントなどのテキスト文字列
- 896 x 896解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 4B、12B、27Bサイズでは128Kトークン、1Bサイズでは32Kトークンの合計入力コンテキスト
出力:
- 入力に対する応答として生成されたテキスト（質問への回答、画像内容の分析、ドキュメントの要約など）
- 8192トークンの合計出力コンテキスト

使用方法

以下に、モデルを迅速に開始するためのいくつかのコードスニペットを示します。まず、Transformersライブラリをインストールします。Gemma 3は、transformers 4.50.0以降でサポートされています。

$ pip install -U transformers

次に、ユースケースに関連するセクションからスニペットをコピーします。

`pipeline` APIでの実行

命令チューニング済みモデルでは、まず入力にチャットテンプレートを使用して処理する必要があります。その後、パイプラインに渡すことができます。

from transformers import pipeline

pipe = pipeline("text-generation", model="google/gemma-3-1b-it", device="cuda", torch_dtype=torch.bfloat16)

messages = [
    [
        {
            "role": "system",
            "content": [{"type": "text", "text": "You are a helpful assistant."},]
        },
        {
            "role": "user",
            "content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
        },
    ],
]

output = pipe(messages, max_new_tokens=50)

シングル/マルチGPUでのモデル実行

from transformers import AutoTokenizer, BitsAndBytesConfig, Gemma3ForCausalLM
import torch

model_id = "google/gemma-3-1b-it"

quantization_config = BitsAndBytesConfig(load_in_8bit=True)

model = Gemma3ForCausalLM.from_pretrained(
    model_id, quantization_config=quantization_config
).eval()

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    [
        {
            "role": "system",
            "content": [{"type": "text", "text": "You are a helpful assistant."},]
        },
        {
            "role": "user",
            "content": [{"type": "text", "text": "Write a poem on Hugging Face, the company"},]
        },
    ],
]
inputs = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device).to(torch.bfloat16)


with torch.inference_mode():
    outputs = model.generate(**inputs, max_new_tokens=64)

outputs = tokenizer.batch_decode(outputs)

引用

@article{gemma_2025,
    title={Gemma 3},
    url={https://goo.gle/Gemma3Report},
    publisher={Kaggle},
    author={Gemma Team},
    year={2025}
}

モデルデータ

モデルトレーニングに使用されたデータとデータの処理方法。

トレーニングデータセット

これらのモデルは、さまざまなソースを含むテキストデータのデータセットでトレーニングされました。27Bモデルは14兆トークン、12Bモデルは12兆トークン、4Bモデルは4兆トークン、1Bモデルは2兆トークンでトレーニングされました。主な構成要素は以下の通りです:

ウェブドキュメント: 多様なウェブテキストのコレクションにより、モデルは幅広い言語スタイル、トピック、語彙にさらされます。トレーニングデータセットには140以上の言語のコンテンツが含まれます。
コード: モデルをコードにさらすことで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の質問の理解能力が向上します。
数学: 数学的テキストでのトレーニングにより、モデルは論理的推論、記号的表現、数学的クエリに対処することを学びます。
画像: 幅広い画像により、モデルは画像分析と視覚データ抽出タスクを実行できます。

これらの多様なデータソースの組み合わせは、さまざまなタスクとデータ形式を処理できる強力なマルチモーダルモデルをトレーニングするために重要です。

データ前処理

トレーニングデータに適用された主なデータクリーニングとフィルタリング方法は以下の通りです:

CSAMフィルタリング: 有害で違法なコンテンツを除外するために、データ準備プロセスの複数の段階で厳格なCSAM（児童性的虐待素材）フィルタリングが適用されました。
機密データフィルタリング: Gemma事前学習モデルを安全で信頼性の高いものにするために、トレーニングセットから特定の個人情報やその他の機密データをフィルタリングする自動技術が使用されました。
その他の方法: [ポリシー][safety-policies]に沿ったコンテンツの品質と安全性に基づくフィルタリング。

実装情報

モデルの内部に関する詳細。

ハードウェア

Gemmaは[Tensor Processing Unit (TPU)][tpu]ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用してトレーニングされました。視覚言語モデル（VLM）のトレーニングには多大な計算能力が必要です。機械学習で一般的な行列演算に特化して設計されたTPUは、この領域でいくつかの利点を提供します:

パフォーマンス: TPUはVLMのトレーニングに関連する大規模な計算を処理するように特別に設計されています。CPUと比較してトレーニングを大幅に高速化できます。
メモリ: TPUは多くの場合、大容量の高帯域幅メモリを搭載しており、トレーニング中の大規模なモデルとバッチサイズを処理できます。これによりモデルの品質が向上します。
スケーラビリティ: TPU Pod（TPUの大規模クラスター）は、大規模な基盤モデルの複雑さに対処するためのスケーラブルなソリューションを提供します。複数のTPUデバイスにトレーニングを分散させ、より高速かつ効率的な処理が可能です。
コスト効率: 多くのシナリオで、TPUは特にトレーニング時間とリソースの節約を考慮すると、CPUベースのインフラストラクチャと比較して大規模モデルのトレーニングによりコスト効率の高いソリューションを提供できます。
これらの利点は[Googleの持続可能な運用への取り組み][sustainability]と一致しています。

ソフトウェア

トレーニングは[JAX][jax]と[ML Pathways][ml-pathways]を使用して行われました。

JAXにより、研究者はTPUを含む最新のハードウェアを活用し、大規模モデルのより高速で効率的なトレーニングが可能になります。ML Pathwaysは、複数のタスクにわたって一般化できる人工知能システムを構築するためのGoogleの最新の取り組みです。これは特に、これらのような大規模言語モデルを含む基盤モデルに適しています。

JAXとML Pathwaysは、[Geminiモデルファミリーに関する論文][gemini-2-paper]で説明されているように使用されます。「JaxとPathwaysの『シングルコントローラー』プログラミングモデルにより、単一のPythonプロセスでトレーニング実行全体を調整でき、開発ワークフローが大幅に簡素化されます。」

評価

モデル評価の指標と結果。

ベンチマーク結果

これらのモデルは、テキスト生成のさまざまな側面をカバーするために、さまざまなデータセットと指標に対して評価されました:

推論と事実性

ベンチマーク	指標	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
HellaSwag	10-shot	62.3	77.2	84.2	85.6
BoolQ	0-shot	63.2	72.3	78.8	82.4
PIQA	0-shot	73.8	79.6	81.8	83.3
SocialIQA	0-shot	48.9	51.9	53.4	54.9
TriviaQA	5-shot	39.8	65.8	78.2	85.5
Natural Questions	5-shot	9.48	20.0	31.4	36.1
ARC-c	25-shot	38.4	56.2	68.9	70.6
ARC-e	0-shot	73.0	82.4	88.3	89.0
WinoGrande	5-shot	58.2	64.7	74.3	78.8
BIG-Bench Hard	few-shot	28.4	50.9	72.6	77.7
DROP	1-shot	42.4	60.1	72.2	77.2

STEMとコード

ベンチマーク	指標	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MMLU	5-shot	59.6	74.5	78.6
MMLU (Pro COT)	5-shot	29.2	45.3	52.2
AGIEval	3-5-shot	42.1	57.4	66.2
MATH	4-shot	24.2	43.3	50.0
GSM8K	8-shot	38.4	71.0	82.6
GPQA	5-shot	15.0	25.4	24.3
MBPP	3-shot	46.0	60.4	65.6
HumanEval	0-shot	36.0	45.7	48.8

多言語

ベンチマーク	Gemma 3 PT 1B	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
MGSM	2.04	34.7	64.3	74.3
Global-MMLU-Lite	24.9	57.0	69.4	75.7
WMT24++ (ChrF)	36.7	48.4	53.9	55.7
FloRes	29.5	39.2	46.0	48.8
XQuAD (all)	43.9	68.0	74.5	76.8
ECLeKTic	4.69	11.0	17.2	24.4
IndicGenBench	41.4	57.2	61.7	63.4

マルチモーダル

ベンチマーク	Gemma 3 PT 4B	Gemma 3 PT 12B	Gemma 3 PT 27B
COCOcap	102	111	116
DocVQA (val)	72.8	82.3	85.6
InfoVQA (val)	44.1	54.8	59.4
MMMU (pt)	39.2	50.3	56.1
TextVQA (val)	58.9	66.5	68.6
RealWorldQA	45.5	52.2	53.9
ReMI	27.3	38.5	44.8
AI2D	63.2	75.2	79.0
ChartQA	63.6	74.7	76.3
VQAv2	63.9	71.2	72.9
BLINK	38.0	35.9	39.6
OKVQA	51.0	58.7	60.2
TallyQA	42.5	51.8	54.3
SpatialSense VQA	50.9	60.0	59.4
CountBenchQA	26.1	17.8	68.0

倫理と安全性

倫理と安全性の評価アプローチと結果。

評価アプローチ

私たちの評価方法には、構造化された評価と関連するコンテンツポリシーの内部レッドチーミングテストが含まれます。レッドチーミングは、異なる目標と人間の評価指標を持つさまざまなチームによって実施されました。これらのモデルは、倫理と安全性に関連する多くの異なるカテゴリに対して評価されました:

児童安全: 児童性的虐待や搾取を含む児童安全ポリシーをカバーするテキストからテキストおよび画像からテキストへのプロンプトの評価。
コンテンツ安全: ハラスメント、暴力とゴア、ヘイトスピーチを含む安全ポリシーをカバーするテキストからテキストおよび画像からテキストへのプロンプトの評価。
表現的害: バイアス、ステレオタイプ、有害な関連付けや不正確さを含む安全ポリシーをカバーするテキストからテキストおよび画像からテキストへのプロンプトの評価。

開発レベルの評価に加えて、私たちは「保証評価」を実施します。これは、リリースに関する責任あるガバナンスの意思決定のために行われる「独立した」内部評価です。これらはモデル開発チームとは別に実施され、リリースに関する意思決定を通知します。高レベルの調査結果はモデルチームにフィードバックされますが、プロンプトセットは保持され、過剰適合を防ぎ、意思決定を通知する結果の能力を維持します。保証評価の結果は、リリースレビューの一環として私たちの責任と安全評議会に報告されます。

評価結果

すべての安全テスト領域において、以前のGemmaモデルと比較して、児童安全、コンテンツ安全、表現的害のカテゴリで大幅な改善が見られました。すべてのテストは、モデルの能力と動作を評価するために安全フィルターなしで実施されました。テキストからテキストおよび画像からテキストの両方で、すべてのモデルサイズにおいて、モデルは最小限のポリシー違反を生成し、根拠のない推論に関して以前のGemmaモデルのパフォーマンスと比較して大幅な改善を示しました。私たちの評価の制限は、英語のプロンプトのみが含まれていたことです。

使用と制限

これらのモデルには、ユーザーが認識すべき特定の制限があります。

意図された使用法

オープンな視覚言語モデル（VLM）は、さまざまな業界や領域で幅広い用途があります。以下の潜在的な使用例のリストは包括的ではありません。このリストの目的は、モデル作成者がモデルのトレーニングと開発の一部として考慮した可能な使用例に関する文脈情報を提供することです。

コンテンツ作成とコミュニケーション
- テキスト生成: これらのモデルは、詩、スクリプト、コード、マーケティングコピー、メールドラフトなどの創造的なテキスト形式を生成するために使用できます。
- チャットボットと会話型AI: カスタマーサービス、仮想アシスタント、またはインタラクティブアプリケーションのための会話インターフェースを強化します。
- テキスト要約: テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出: これらのモデルは、テキスト通信のために視覚データを抽出、解釈、要約するために使用できます。
研究と教育
- 自然言語処理（NLP）とVLM研究: これらのモデルは、研究者がVLMとNLP技術を実験し、アルゴリズムを開発し、分野の進歩に貢献するための基盤として機能します。
- 言語学習ツール: 文法修正を支援したり、ライティング練習を提供したりするインタラクティブな言語学習体験をサポートします。
- 知識探索: 特定のトピックに関する要約を生成したり、質問に答えたりすることで、研究者が大規模なテキストを探索するのを支援します。

制限

トレーニングデータ
- トレーニングデータの品質と多様性は、モデルの能力に大きく影響します。トレーニングデータのバイアスやギャップは、モデルの応答に制限をもたらす可能性があります。
- トレーニングデータセットの範囲は、モデルが効果的に処理できる主題領域を決定します。
コンテキストとタスクの複雑さ
- モデルは、明確なプロンプトと指示でフレーム化できるタスクの方が優れています。オープンエンドまたは非常に複雑なタスクは難しいかもしれません。
- モデルのパフォーマンスは、提供されるコンテキストの量（特定のポイントまでは、より長いコンテキストがより良い出力につながる）に影響される可能性があります。
言語の曖昧さとニュアンス
- 自然言語は本質的に複雑です。モデルは微妙なニュアンス、皮肉、または比喩的な言語を理解するのに苦労するかもしれません。
事実の正確性
- モデルはトレーニングデータセットから学んだ情報に基づいて応答を生成しますが、知識ベースではありません。誤ったまたは時代遅れの事実を生成する可能性があります。
常識
- モデルは言語の統計的パターンに依存しています。特定の状況で常識的推論を適用する能力が欠けている可能性があります。

倫理的考慮事項とリスク

視覚言語モデル（VLM）の開発は、いくつかの倫理的懸念を引き起こします。オープンモデルを作成する際に、私たちは以下を慎重に考慮しました:

バイアスと公平性
- 大規模な現実世界のテキストと画像データでトレーニングされたVLMは、トレーニング素材に埋め込まれた社会文化的バイアスを反映する可能性があります。これらのモデルは、このカードで説明されている入力データの前処理と事後評価に注意深い精査を受けました。
誤情報と誤用
- VLMは、虚偽、誤解を招く、または有害なテキストを生成するために誤用される可能性があります。
- 責任ある使用のためのガイドラインがモデルと共に提供されます。[責任ある生成AIツールキット][rai-toolkit]を参照してください。
透明性と説明責任:
- このモデルカードは、モデルのアーキテクチャ、能力、制限、および評価プロセスに関する詳細を要約しています。
- 責任を持って開発されたオープンモデルは、VLM技術をAIエコシステム全体の開発者や研究者にアクセス可能にすることで、イノベーションを共有する機会を提供します。

特定されたリスクと緩和策:

バイアスの永続化: 継続的な監視（評価指標、人間のレビューを使用）と、モデルのトレーニング、ファインチューニング、その他の使用例におけるバイアス除去技術の探求が推奨されます。
有害なコンテンツの生成: コンテンツ安全のためのメカニズムとガイドラインが不可欠です。開発者は、特定の製品ポリシーとアプリケーションの使用例に基づいて適切なコンテンツ安全保護を実装するよう注意を払うことが推奨されます。
悪意のある目的での誤用: 技術的な制限と開発者およびエンドユーザー教育は、VLMの悪意のあるアプリケーションに対抗するのに役立ちます。教育リソースとユーザーが誤用を報告するためのメカニズムが提供されます。Gemmaモデルの禁止された使用は[Gemma禁止使用ポリシー][prohibited-use]で概説されています。
プライバシー侵害: モデルは、特定の個人情報やその他の機密データを削除するためにフィルタリングされたデータでトレーニングされました。開発者は、プライバシー保護技術を使用してプライバシー規制に準拠することが推奨されます。