🚀 Gemma 3nモデル紹介
Gemma 3nはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Gemmaモデルと同じ研究と技術に基づいて構築されています。このモデルは、テキスト、オーディオ、ビジュアル(画像とビデオ)の入力をサポートし、さまざまなタスクやデータ形式に対応しています。
🚀 クイックスタート
このリポジトリはGemma 3n E2Bのリリースバージョンに対応しており、Hugging Faceのtransformers
ライブラリと組み合わせて使用できます。テキスト、オーディオ、ビジュアル(画像とビデオ)の入力をサポートしています。
✨ 主な機能
- マルチモーダルサポート:テキスト、画像、ビデオ、オーディオの入力を処理し、テキスト出力を生成することができます。
- アーキテクチャの革新:有効パラメータに基づいた2種類のサイズから選択できます。MatFormerアーキテクチャを使用しており、E4Bモデルではサブモデルをネストすることができます。
- リソース効率:低利用率の行列をアクセラレータからアンロードすることで、このモデルのメモリ使用量は従来の2Bモデルと同等です。
📦 インストール
まず、transformers
ライブラリをインストールします。Gemma 3nはtransformers
4.53.0バージョン以降でサポートされています。
$ pip install -U transformers
💻 使用例
基本的な使用法
pipeline
APIを使用して推論を行う例です。
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e2b",
device="cuda",
torch_dtype=torch.bfloat16,
)
output = pipe(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
text="<image_soft_token> in this image, there is"
)
print(output)
高度な使用法
単一のGPU上でモデルを実行する例です。
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e2b"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device="cuda", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
prompt = "<image_soft_token> in this image, there is"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=10)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
📚 ドキュメント
モデル情報
属性 |
詳細 |
モデルタイプ |
Gemma 3nはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、マルチモーダル入出力をサポートしています。 |
学習データ |
このモデルは約11兆個のトークンを含むデータセットで学習されており、知識の截止日は2024年6月です。学習データには、ウェブ文書、コード、数学、画像、オーディオなど、さまざまなソースが含まれています。 |
モデルデータ
- 学習データセット:これらのモデルは、さまざまなソースのデータセットで学習されており、合計で約11兆個のトークンが含まれています。学習データの知識截止日は2024年6月で、ウェブ文書、コード、数学、画像、オーディオなどが含まれています。
- データ前処理:学習データには、厳格なCSAMフィルタリング、敏感データフィルタリング、その他のコンテンツ品質とセキュリティに基づくフィルタリング方法が適用されています。
実装情報
評価
これらのモデルは、全精度(float32)で多数の異なるデータセットと指標に対して評価されており、コンテンツ生成のさまざまな側面を網羅しています。評価結果は、事前学習モデル(PT)と指令微調整モデル(IT)に分けられています。
推論と事実性
多言語
ベンチマーク |
指標 |
n-shot |
E2B IT |
E4B IT |
MGSM |
正解率 |
0-shot |
53.1 |
60.7 |
WMT24++ (ChrF) |
文字レベルのFスコア |
0-shot |
42.7 |
50.1 |
Include |
正解率 |
0-shot |
38.6 |
57.2 |
MMLU (ProX) |
正解率 |
0-shot |
8.1 |
19.9 |
OpenAI MMLU |
正解率 |
0-shot |
22.3 |
35.6 |
Global-MMLU |
正解率 |
0-shot |
55.1 |
60.3 |
ECLeKTic |
ECLeKTicスコア |
0-shot |
2.5 |
1.9 |
STEMとコード
ベンチマーク |
指標 |
n-shot |
E2B IT |
E4B IT |
GPQA Diamond |
緩和正解率/正解率 |
0-shot |
24.8 |
23.7 |
LiveCodeBench v5 |
pass@1 |
0-shot |
18.6 |
25.7 |
Codegolf v2.2 |
pass@1 |
0-shot |
11.0 |
16.8 |
AIME 2025 |
正解率 |
0-shot |
6.7 |
11.6 |
その他のベンチマーク
ベンチマーク |
指標 |
n-shot |
E2B IT |
E4B IT |
MMLU |
正解率 |
0-shot |
60.1 |
64.9 |
MBPP |
pass@1 |
3-shot |
56.6 |
63.6 |
HumanEval |
pass@1 |
0-shot |
66.5 |
75.0 |
LiveCodeBench |
pass@1 |
0-shot |
13.2 |
13.2 |
HiddenMath |
正解率 |
0-shot |
27.7 |
37.7 |
Global-MMLU-Lite |
正解率 |
0-shot |
59.0 |
64.5 |
MMLU (Pro) |
正解率 |
0-shot |
40.5 |
50.6 |
倫理とセキュリティ
- 評価方法:構造化評価と内部レッドチームテストを含み、評価内容は子供の安全、コンテンツセキュリティ、表現上の危害などの側面を網羅しています。
- 評価結果:すべてのセキュリティテスト分野で、モデルは子供の安全、コンテンツセキュリティ、表現上の危害などのカテゴリで安全レベルを示し、以前のGemmaモデルに比べて著しい改善が見られます。
使用と制限
- 想定用途:このモデルは、コンテンツ作成や通信、研究や教育など、さまざまな分野で使用できます。
- 制限:モデルの性能は、学習データの品質と多様性、コンテキストやタスクの複雑さなどの要素に影響されます。
🔧 技術詳細
これらの技術に関する詳細情報については、技術ブログ記事とGemmaドキュメントを参照してください。
📄 ライセンス
ライセンスはGemmaです。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
重要な注意事項
⚠️ 重要な注意
このリポジトリはGemma 3n E2Bのリリースバージョンに対応しており、Hugging Faceのtransformers
ライブラリと組み合わせて使用する必要があります。テキスト、オーディオ、ビジュアル(画像とビデオ)の入力をサポートしています。
💡 使用上のヒント
Hugging FaceでGemmaにアクセスするには、Googleの使用許諾を確認して同意する必要があります。Hugging Faceにログインし、下のボタンをクリックすると、リクエストがすぐに処理されます。