Gemma 3n - E2Bオープンソースモデル - 無料でデプロイできる軽量級多モーダル入出力の利器

ホーム

Gemma 3n E2B

googleによって開発

Gemma 3nはGoogleが開発した軽量で最先端のオープンソースモデルファミリーで、マルチモーダル入出力をサポートしています。

画像生成テキスト

Transformers

#マルチモーダル処理 #軽量オープンソース #効率的なパラメータアーキテクチャ

ダウンロード数 206

リリース時間 : 6/12/2025

モデル概要

Gemma 3nはGeminiモデルと同じ研究と技術に基づいて構築された軽量オープンソースモデルで、テキスト、オーディオ、ビジュアル（画像とビデオ）入力をサポートし、さまざまなタスクとデータ形式に適しています。

モデル特徴

マルチモーダルサポート

テキスト、画像、ビデオ、オーディオ入力を処理し、テキスト出力を生成することができます。

アーキテクチャ革新

MatFormerアーキテクチャを使用し、E4Bモデル内にサブモデルをネストできます。

リソース効率化

低利用率の行列をアクセラレータからアンロードすることで、このモデルのメモリ使用量は従来の20億パラメータモデルと同等です。

モデル能力

テキスト生成

画像分析

ビデオ分析

オーディオ分析

マルチモーダル推論

使用事例

コンテンツ作成

画像説明生成

入力された画像に基づいて詳細なテキスト説明を生成します。

正確で詳細な画像説明を生成します。

研究と教育

マルチモーダル学習

マルチモーダル入力を利用して教育や研究タスクを行います。

学習と研究の効率を向上させます。

🚀 Gemma 3nモデル紹介

Gemma 3nはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Gemmaモデルと同じ研究と技術に基づいて構築されています。このモデルは、テキスト、オーディオ、ビジュアル（画像とビデオ）の入力をサポートし、さまざまなタスクやデータ形式に対応しています。

🚀 クイックスタート

このリポジトリはGemma 3n E2Bのリリースバージョンに対応しており、Hugging Faceのtransformersライブラリと組み合わせて使用できます。テキスト、オーディオ、ビジュアル（画像とビデオ）の入力をサポートしています。

✨ 主な機能

マルチモーダルサポート：テキスト、画像、ビデオ、オーディオの入力を処理し、テキスト出力を生成することができます。
アーキテクチャの革新：有効パラメータに基づいた2種類のサイズから選択できます。MatFormerアーキテクチャを使用しており、E4Bモデルではサブモデルをネストすることができます。
リソース効率：低利用率の行列をアクセラレータからアンロードすることで、このモデルのメモリ使用量は従来の2Bモデルと同等です。

📦 インストール

まず、transformersライブラリをインストールします。Gemma 3nはtransformers 4.53.0バージョン以降でサポートされています。

$ pip install -U transformers

💻 使用例

基本的な使用法

pipeline APIを使用して推論を行う例です。

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e2b",
    device="cuda",
    torch_dtype=torch.bfloat16,
)
output = pipe(
    "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
    text="<image_soft_token> in this image, there is"
)

print(output)
# [{'input_text': '<image_soft_token> in this image, there is',
# 'generated_text': '<image_soft_token> in this image, there is a beautiful flower and a bee is sucking nectar and pollen from the flower.'}]

高度な使用法

単一のGPU上でモデルを実行する例です。

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3n-e2b"

model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device="cuda", torch_dtype=torch.bfloat16,).eval()

processor = AutoProcessor.from_pretrained(model_id)

url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
prompt = "<image_soft_token> in this image, there is"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)

input_len = model_inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**model_inputs, max_new_tokens=10)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# one picture of flowers which shows that the flower is

📚 ドキュメント

モデル情報

属性	詳細
モデルタイプ	Gemma 3nはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、マルチモーダル入出力をサポートしています。
学習データ	このモデルは約11兆個のトークンを含むデータセットで学習されており、知識の截止日は2024年6月です。学習データには、ウェブ文書、コード、数学、画像、オーディオなど、さまざまなソースが含まれています。

モデルデータ

学習データセット：これらのモデルは、さまざまなソースのデータセットで学習されており、合計で約11兆個のトークンが含まれています。学習データの知識截止日は2024年6月で、ウェブ文書、コード、数学、画像、オーディオなどが含まれています。
データ前処理：学習データには、厳格なCSAMフィルタリング、敏感データフィルタリング、その他のコンテンツ品質とセキュリティに基づくフィルタリング方法が適用されています。

実装情報

ハードウェア：Gemmaはテンソル処理ユニット（TPU）ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して学習されています。
ソフトウェア：JAXとML Pathwaysを使用して学習されています。

評価

これらのモデルは、全精度（float32）で多数の異なるデータセットと指標に対して評価されており、コンテンツ生成のさまざまな側面を網羅しています。評価結果は、事前学習モデル（PT）と指令微調整モデル（IT）に分けられています。

推論と事実性

ベンチマーク	指標	n-shot	E2B PT	E4B PT
HellaSwag	正解率	10-shot	72.2	78.6
BoolQ	正解率	0-shot	76.4	81.6
PIQA	正解率	0-shot	78.9	81.0
SocialIQA	正解率	0-shot	48.8	50.0
TriviaQA	正解率	5-shot	60.8	70.2
Natural Questions	正解率	5-shot	15.5	20.9
ARC-c	正解率	25-shot	51.7	61.6
ARC-e	正解率	0-shot	75.8	81.6
WinoGrande	正解率	5-shot	66.8	71.7
BIG-Bench Hard	正解率	few-shot	44.3	52.9
DROP	トークンF1スコア	1-shot	53.9	60.8

多言語

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MGSM	正解率	0-shot	53.1	60.7
WMT24++ (ChrF)	文字レベルのFスコア	0-shot	42.7	50.1
Include	正解率	0-shot	38.6	57.2
MMLU (ProX)	正解率	0-shot	8.1	19.9
OpenAI MMLU	正解率	0-shot	22.3	35.6
Global-MMLU	正解率	0-shot	55.1	60.3
ECLeKTic	ECLeKTicスコア	0-shot	2.5	1.9

STEMとコード

ベンチマーク	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	緩和正解率/正解率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	正解率	0-shot	6.7	11.6

その他のベンチマーク

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MMLU	正解率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	正解率	0-shot	27.7	37.7
Global-MMLU-Lite	正解率	0-shot	59.0	64.5
MMLU (Pro)	正解率	0-shot	40.5	50.6

倫理とセキュリティ

評価方法：構造化評価と内部レッドチームテストを含み、評価内容は子供の安全、コンテンツセキュリティ、表現上の危害などの側面を網羅しています。
評価結果：すべてのセキュリティテスト分野で、モデルは子供の安全、コンテンツセキュリティ、表現上の危害などのカテゴリで安全レベルを示し、以前のGemmaモデルに比べて著しい改善が見られます。

使用と制限

想定用途：このモデルは、コンテンツ作成や通信、研究や教育など、さまざまな分野で使用できます。
制限：モデルの性能は、学習データの品質と多様性、コンテキストやタスクの複雑さなどの要素に影響されます。

🔧 技術詳細

これらの技術に関する詳細情報については、技術ブログ記事とGemmaドキュメントを参照してください。

📄 ライセンス

ライセンスはGemmaです。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}