Gemma 3n - E2B - itオープンソースマルチモーダルモデル - 無料でデプロイ可能、低リソースデバイスでも簡単に使用できます

ホーム

Gemma 3n E2B It Unsloth Bnb 4bit

unslothによって開発

Gemma 3n-E2B-itはGoogleが提供する軽量オープンソースのマルチモーダルモデルで、Geminiと同じ技術に基づいて構築され、低リソースデバイス向けに最適化されています。

画像生成テキスト

Transformers

英語#マルチモーダル処理 #低リソース最適化 #多言語対応

ダウンロード数 4,914

リリース時間 : 6/26/2025

モデル概要

テキスト、画像、ビデオ、音声の入力をサポートするマルチモーダルモデルで、高品質なテキスト出力を生成でき、多言語やさまざまなタスクに適しています。

モデル特徴

マルチモーダルサポート

テキスト、画像、ビデオ、音声の入力を同時に処理し、クロスモーダル理解を実現します。

低リソース最適化

選択的パラメータ活性化技術を採用し、2B/4Bパラメータ規模で効率的に動作します。

多言語能力

140種類以上の言語のデータで訓練され、クロス言語処理能力を備えています。

オープンウェイト

事前学習と命令調整版のオープンウェイトを提供します。

モデル能力

テキスト生成

画像内容分析

音声文字起こし

多言語翻訳

コード生成

数学的推論

ビジュアル質問応答

使用事例

コンテンツ生成

画像説明生成

入力された画像に基づいて詳細な説明を生成します。

サンプル出力では、画像内のハチと花の詳細を正確に識別します。

スマートアシスタント

マルチモーダル対話

画像とテキストの入力を組み合わせて自然な対話を行います。

画像内容に関する複雑な質問に正しく答えることができます。

教育

STEM問題解決

数学と科学の問題を解きます。

ARC - cベンチマークテストで61.6の正解率を達成します。

🚀 Gemma 3n-E2B-it モデル使用ガイド

Gemma 3n-E2B-it は、Google が開発した軽量で先進的なオープンソースモデルです。Gemini モデルと同じ研究と技術に基づいて構築されており、低リソースデバイスでの効率的な実行に最適化されています。多様なモーダル入力（テキスト、画像、ビデオ、音声）を処理し、テキスト出力を生成することができます。

詳細情報

実行と微調整ガイド：ガイドを読むことで、Gemma 3n の正しい実行方法と微調整方法を学ぶことができます。
すべてのバージョンを確認：コレクションを見ることで、GGUF、4 ビット、16 ビット形式を含むすべての Gemma 3n バージョンを確認できます。
Unsloth Dynamic 2.0：Unsloth Dynamic 2.0 は、他の量子化方法と比較して、最適な精度とパフォーマンスを実現しています。

コミュニティリンク

✨ 主な機能

多モーダル入力サポート：テキスト、画像、ビデオ、音声の入力を処理し、テキスト出力を生成できます。
低リソースデバイスに適している：低リソースデバイスでも効率的に動作するように設計されています。
オープンウェイト：事前学習と命令調整のバリエーションのウェイトが公開されています。
多言語サポート：140 種類以上の口語言語のデータで訓練されています。

📦 インストール

Gemma 3n は transformers 4.53.0 以降のバージョンでサポートされています。まず、Transformers ライブラリをインストールしましょう。

$ pip install -U transformers

💻 使用例

基本的な使用法

pipeline API を使用して推論を行います。

from transformers import pipeline
import torch
pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高度な使用法

命令調整モデルを使用する場合、入力をチャットテンプレートで処理してからパイプラインに渡す必要があります。

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

単一の GPU でモデルを実行する

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 ドキュメント

モデル情報

説明

Gemma は Google が開発した軽量で先進的なオープンソースモデルのシリーズです。Gemma 3n モデルは、低リソースデバイスでの効率的な実行を目的としており、テキスト、画像、ビデオ、音声などの多モーダル入力を処理し、テキスト出力を生成することができます。事前学習と命令調整のバリエーションのウェイトが公開されており、140 種類以上の口語言語のデータで訓練されています。

Gemma 3n モデルは、選択的パラメータ活性化技術を使用してリソース要件を削減しています。この技術により、モデルは総パラメータ数よりも少ない 2B と 4B のパラメータの有効規模で動作することができます。Gemma 3n の効率的なパラメータ管理技術の詳細については、Gemma 3n ページを参照してください。

入力と出力

入力：
- テキスト文字列（質問、プロンプト、要約するドキュメントなど）
- 画像（256x256、512x512、または 768x768 の解像度に正規化され、256 トークンごとにエンコードされる）
- 音声データ（モノラルから 1 秒あたり 6.25 トークンにエンコードされる）
- 総入力コンテキストは 32K トークン
出力：
- 入力に対する生成テキスト（質問の答え、画像内容の分析、ドキュメントの要約など）
- 総出力長は、要求入力トークンを差し引いて最大 32K トークン

モデルデータ

訓練データセット

これらのモデルは、様々なソースから収集されたデータセットで訓練されており、合計で約 11 兆トークンのデータが含まれています。訓練データの知識の截止日は 2024 年 6 月です。主な構成要素は以下の通りです。

ウェブドキュメント：多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることができます。訓練データセットには 140 種類以上の言語の内容が含まれています。
コード：コードに触れることで、モデルはプログラミング言語の構文とパターンを学習し、コードの生成とコード関連の問題の理解能力を向上させることができます。
数学：数学的なテキストで訓練することで、モデルは論理的な推論、記号表現、数学的なクエリの処理を学習することができます。
画像：幅広い画像データにより、モデルは画像分析と視覚データの抽出タスクを実行することができます。
音声：多様な音声サンプルにより、モデルは音声を認識し、録音からテキストを文字起こしし、音声データ内の情報を識別することができます。

データ前処理

訓練データに適用される主要なデータクリーニングとフィルタリング方法は以下の通りです。

CSAM フィルタリング：データ準備の過程で、有害で違法な内容を排除するために、厳格な CSAM（児童性虐待材料）フィルタリングが適用されます。
敏感データフィルタリング：Gemma 事前学習モデルを安全かつ信頼できるものにするために、自動化技術を使用して訓練データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
その他の方法：ポリシーに基づいて、コンテンツの品質と安全性に基づくフィルタリングが行われます。

実装情報

ハードウェア

Gemma はテンソル処理ユニット (TPU) ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して訓練されています。生成モデルの訓練には大量の計算能力が必要で、TPU は機械学習で一般的な行列演算に特化して設計されており、以下のような利点があります。

パフォーマンス：TPU は生成モデルの訓練に必要な大量の計算を処理するように最適化されており、CPU と比較して訓練を大幅に高速化することができます。
メモリ：TPU は通常、大量の高帯域幅メモリを備えており、訓練中に大規模なモデルとバッチサイズを処理することができます。これにより、モデルの品質を向上させることができます。
拡張性：TPU Pod（大型の TPU クラスター）は、大規模な基礎モデルの複雑さに対応するための拡張可能なソリューションを提供します。複数の TPU デバイスに訓練を分散させることで、より高速で効率的な処理が可能になります。
コスト効率：多くの場合、CPU ベースのインフラストラクチャと比較して、TPU は大規模なモデルの訓練に対してよりコスト効率の高いソリューションを提供することができます。特に、高速な訓練による時間とリソースの節約を考慮すると、コスト面でのメリットが大きいです。

ソフトウェア

訓練には JAX と ML Pathways が使用されています。JAX は最新のハードウェア（TPU を含む）を活用して、大規模なモデルをより高速かつ効率的に訓練することができます。ML Pathways は、Google が複数のタスクにわたって汎化できる人工知能システムを構築するための最新の取り組みであり、このような大規模言語モデルを含む基礎モデルに特に適しています。

評価

ベンチマーク結果

これらのモデルは、全精度（float32）で多数の異なるデータセットと指標に対して評価され、コンテンツ生成のさまざまな側面を網羅しています。IT とマークされた評価結果は命令調整モデルに関するもので、PT とマークされた評価結果は事前学習モデルに関するものです。

推論と事実性

ベンチマーク	指標	n-shot	E2B PT	E4B PT
HellaSwag	正解率	10-shot	72.2	78.6
BoolQ	正解率	0-shot	76.4	81.6
PIQA	正解率	0-shot	78.9	81.0
SocialIQA	正解率	0-shot	48.8	50.0
TriviaQA	正解率	5-shot	60.8	70.2
Natural Questions	正解率	5-shot	15.5	20.9
ARC-c	正解率	25-shot	51.7	61.6
ARC-e	正解率	0-shot	75.8	81.6
WinoGrande	正解率	5-shot	66.8	71.7
BIG-Bench Hard	正解率	few-shot	44.3	52.9
DROP	トークン F1 スコア	1-shot	53.9	60.8

多言語

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MGSM	正解率	0-shot	53.1	60.7
WMT24++ (ChrF)	文字レベルの F スコア	0-shot	42.7	50.1
Include	正解率	0-shot	38.6	57.2
MMLU (ProX)	正解率	0-shot	8.1	19.9
OpenAI MMLU	正解率	0-shot	22.3	35.6
Global-MMLU	正解率	0-shot	55.1	60.3
ECLeKTic	ECLeKTic スコア	0-shot	2.5	1.9

STEM とコード

ベンチマーク	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	緩い正解率/正解率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	正解率	0-shot	6.7	11.6

その他のベンチマーク

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MMLU	正解率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	正解率	0-shot	27.7	37.7
Global-MMLU-Lite	正解率	0-shot	59.0	64.5
MMLU (Pro)	正解率	0-shot	40.5	50.6

倫理と安全

評価方法

評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、それぞれのチームには異なる目標と人間評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリに対して評価され、以下のようなものが含まれます。

児童安全：テキストからテキスト、画像からテキストのプロンプトを評価し、児童性虐待や搾取を含む児童安全ポリシーをカバーしています。
コンテンツ安全：テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力、血腥な内容、ハットスピーチを含む安全ポリシーをカバーしています。
表現上の危害：テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含む安全ポリシーをカバーしています。

開発段階の評価に加えて、「保証評価」も行われます。これは、モデル開発チームとは別に行われる「独立した」内部評価で、責任ある管理決定のために行われ、リリース決定に情報を提供します。

🔧 技術詳細

ハードウェア

訓練にはテンソル処理ユニット (TPU) ハードウェア（TPUv4p、TPUv5p、TPUv5e）が使用されています。TPU は機械学習で一般的な行列演算に特化して設計されており、高性能、大容量メモリ、拡張性、コスト効率などの利点があります。

ソフトウェア

訓練には JAX と ML Pathways が使用されています。JAX は最新のハードウェアを利用して効率的な訓練を可能にし、ML Pathways は複数のタスクにわたって汎化できる人工知能システムの構築に適しています。

📄 ライセンス

このモデルは gemma ライセンスを使用しています。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}