モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma 3n-E2B-it モデル使用ガイド
Gemma 3n-E2B-it は、Google が開発した軽量で先進的なオープンソースモデルです。Gemini モデルと同じ研究と技術に基づいて構築されており、低リソースデバイスでの効率的な実行に最適化されています。多様なモーダル入力(テキスト、画像、ビデオ、音声)を処理し、テキスト出力を生成することができます。
詳細情報
- 実行と微調整ガイド:ガイドを読む ことで、Gemma 3n の正しい実行方法と微調整方法を学ぶことができます。
- すべてのバージョンを確認:コレクション を見ることで、GGUF、4 ビット、16 ビット形式を含むすべての Gemma 3n バージョンを確認できます。
- Unsloth Dynamic 2.0:Unsloth Dynamic 2.0 は、他の量子化方法と比較して、最適な精度とパフォーマンスを実現しています。
コミュニティリンク
✨ 主な機能
- 多モーダル入力サポート:テキスト、画像、ビデオ、音声の入力を処理し、テキスト出力を生成できます。
- 低リソースデバイスに適している:低リソースデバイスでも効率的に動作するように設計されています。
- オープンウェイト:事前学習と命令調整のバリエーションのウェイトが公開されています。
- 多言語サポート:140 種類以上の口語言語のデータで訓練されています。
📦 インストール
Gemma 3n は transformers 4.53.0 以降のバージョンでサポートされています。まず、Transformers ライブラリをインストールしましょう。
$ pip install -U transformers
💻 使用例
基本的な使用法
pipeline
API を使用して推論を行います。
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e4b-it",
device="cuda",
torch_dtype=torch.bfloat16,
)
高度な使用法
命令調整モデルを使用する場合、入力をチャットテンプレートで処理してからパイプラインに渡す必要があります。
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
単一の GPU でモデルを実行する
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
📚 ドキュメント
モデル情報
説明
Gemma は Google が開発した軽量で先進的なオープンソースモデルのシリーズです。Gemma 3n モデルは、低リソースデバイスでの効率的な実行を目的としており、テキスト、画像、ビデオ、音声などの多モーダル入力を処理し、テキスト出力を生成することができます。事前学習と命令調整のバリエーションのウェイトが公開されており、140 種類以上の口語言語のデータで訓練されています。
Gemma 3n モデルは、選択的パラメータ活性化技術を使用してリソース要件を削減しています。この技術により、モデルは総パラメータ数よりも少ない 2B と 4B のパラメータの有効規模で動作することができます。Gemma 3n の効率的なパラメータ管理技術の詳細については、Gemma 3n ページを参照してください。
入力と出力
- 入力:
- テキスト文字列(質問、プロンプト、要約するドキュメントなど)
- 画像(256x256、512x512、または 768x768 の解像度に正規化され、256 トークンごとにエンコードされる)
- 音声データ(モノラルから 1 秒あたり 6.25 トークンにエンコードされる)
- 総入力コンテキストは 32K トークン
- 出力:
- 入力に対する生成テキスト(質問の答え、画像内容の分析、ドキュメントの要約など)
- 総出力長は、要求入力トークンを差し引いて最大 32K トークン
モデルデータ
訓練データセット
これらのモデルは、様々なソースから収集されたデータセットで訓練されており、合計で約 11 兆トークンのデータが含まれています。訓練データの知識の截止日は 2024 年 6 月です。主な構成要素は以下の通りです。
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることができます。訓練データセットには 140 種類以上の言語の内容が含まれています。
- コード:コードに触れることで、モデルはプログラミング言語の構文とパターンを学習し、コードの生成とコード関連の問題の理解能力を向上させることができます。
- 数学:数学的なテキストで訓練することで、モデルは論理的な推論、記号表現、数学的なクエリの処理を学習することができます。
- 画像:幅広い画像データにより、モデルは画像分析と視覚データの抽出タスクを実行することができます。
- 音声:多様な音声サンプルにより、モデルは音声を認識し、録音からテキストを文字起こしし、音声データ内の情報を識別することができます。
データ前処理
訓練データに適用される主要なデータクリーニングとフィルタリング方法は以下の通りです。
- CSAM フィルタリング:データ準備の過程で、有害で違法な内容を排除するために、厳格な CSAM(児童性虐待材料)フィルタリングが適用されます。
- 敏感データフィルタリング:Gemma 事前学習モデルを安全かつ信頼できるものにするために、自動化技術を使用して訓練データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
- その他の方法:ポリシー に基づいて、コンテンツの品質と安全性に基づくフィルタリングが行われます。
実装情報
ハードウェア
Gemma は テンソル処理ユニット (TPU) ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して訓練されています。生成モデルの訓練には大量の計算能力が必要で、TPU は機械学習で一般的な行列演算に特化して設計されており、以下のような利点があります。
- パフォーマンス:TPU は生成モデルの訓練に必要な大量の計算を処理するように最適化されており、CPU と比較して訓練を大幅に高速化することができます。
- メモリ:TPU は通常、大量の高帯域幅メモリを備えており、訓練中に大規模なモデルとバッチサイズを処理することができます。これにより、モデルの品質を向上させることができます。
- 拡張性:TPU Pod(大型の TPU クラスター)は、大規模な基礎モデルの複雑さに対応するための拡張可能なソリューションを提供します。複数の TPU デバイスに訓練を分散させることで、より高速で効率的な処理が可能になります。
- コスト効率:多くの場合、CPU ベースのインフラストラクチャと比較して、TPU は大規模なモデルの訓練に対してよりコスト効率の高いソリューションを提供することができます。特に、高速な訓練による時間とリソースの節約を考慮すると、コスト面でのメリットが大きいです。
ソフトウェア
訓練には JAX と ML Pathways が使用されています。JAX は最新のハードウェア(TPU を含む)を活用して、大規模なモデルをより高速かつ効率的に訓練することができます。ML Pathways は、Google が複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みであり、このような大規模言語モデルを含む基礎モデルに特に適しています。
評価
ベンチマーク結果
これらのモデルは、全精度(float32)で多数の異なるデータセットと指標に対して評価され、コンテンツ生成のさまざまな側面を網羅しています。IT とマークされた評価結果は命令調整モデルに関するもので、PT とマークされた評価結果は事前学習モデルに関するものです。
推論と事実性
ベンチマーク | 指標 | n-shot | E2B PT | E4B PT |
---|---|---|---|---|
HellaSwag | 正解率 | 10-shot | 72.2 | 78.6 |
BoolQ | 正解率 | 0-shot | 76.4 | 81.6 |
PIQA | 正解率 | 0-shot | 78.9 | 81.0 |
SocialIQA | 正解率 | 0-shot | 48.8 | 50.0 |
TriviaQA | 正解率 | 5-shot | 60.8 | 70.2 |
Natural Questions | 正解率 | 5-shot | 15.5 | 20.9 |
ARC-c | 正解率 | 25-shot | 51.7 | 61.6 |
ARC-e | 正解率 | 0-shot | 75.8 | 81.6 |
WinoGrande | 正解率 | 5-shot | 66.8 | 71.7 |
BIG-Bench Hard | 正解率 | few-shot | 44.3 | 52.9 |
DROP | トークン F1 スコア | 1-shot | 53.9 | 60.8 |
多言語
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MGSM | 正解率 | 0-shot | 53.1 | 60.7 |
WMT24++ (ChrF) | 文字レベルの F スコア | 0-shot | 42.7 | 50.1 |
Include | 正解率 | 0-shot | 38.6 | 57.2 |
MMLU (ProX) | 正解率 | 0-shot | 8.1 | 19.9 |
OpenAI MMLU | 正解率 | 0-shot | 22.3 | 35.6 |
Global-MMLU | 正解率 | 0-shot | 55.1 | 60.3 |
ECLeKTic | ECLeKTic スコア | 0-shot | 2.5 | 1.9 |
STEM とコード
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
GPQA Diamond | 緩い正解率/正解率 | 0-shot | 24.8 | 23.7 |
LiveCodeBench v5 | pass@1 | 0-shot | 18.6 | 25.7 |
Codegolf v2.2 | pass@1 | 0-shot | 11.0 | 16.8 |
AIME 2025 | 正解率 | 0-shot | 6.7 | 11.6 |
その他のベンチマーク
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MMLU | 正解率 | 0-shot | 60.1 | 64.9 |
MBPP | pass@1 | 3-shot | 56.6 | 63.6 |
HumanEval | pass@1 | 0-shot | 66.5 | 75.0 |
LiveCodeBench | pass@1 | 0-shot | 13.2 | 13.2 |
HiddenMath | 正解率 | 0-shot | 27.7 | 37.7 |
Global-MMLU-Lite | 正解率 | 0-shot | 59.0 | 64.5 |
MMLU (Pro) | 正解率 | 0-shot | 40.5 | 50.6 |
倫理と安全
評価方法
評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、それぞれのチームには異なる目標と人間評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリに対して評価され、以下のようなものが含まれます。
- 児童安全:テキストからテキスト、画像からテキストのプロンプトを評価し、児童性虐待や搾取を含む児童安全ポリシーをカバーしています。
- コンテンツ安全:テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力、血腥な内容、ハットスピーチを含む安全ポリシーをカバーしています。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含む安全ポリシーをカバーしています。
開発段階の評価に加えて、「保証評価」も行われます。これは、モデル開発チームとは別に行われる「独立した」内部評価で、責任ある管理決定のために行われ、リリース決定に情報を提供します。
🔧 技術詳細
ハードウェア
訓練には テンソル処理ユニット (TPU) ハードウェア(TPUv4p、TPUv5p、TPUv5e)が使用されています。TPU は機械学習で一般的な行列演算に特化して設計されており、高性能、大容量メモリ、拡張性、コスト効率などの利点があります。
ソフトウェア
訓練には JAX と ML Pathways が使用されています。JAX は最新のハードウェアを利用して効率的な訓練を可能にし、ML Pathways は複数のタスクにわたって汎化できる人工知能システムの構築に適しています。
📄 ライセンス
このモデルは gemma ライセンスを使用しています。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}








