Gemma 3n - E2B - itオープンソースマルチモーダルモデル - テキスト、音声、ビジュアルの入力に対応し、多様なタスクに適用可能

Gemma 3n E2B It

googleによって開発

Gemma 3nはGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。テキスト、オーディオ、ビジュアル入力をサポートし、様々なタスクに適用できます。

画像生成テキスト

Transformers

#マルチモーダル入力 #軽量で効率的 #低リソースデバイス

ダウンロード数 1,183

リリース時間 : 6/12/2025

モデル概要

Gemma 3nは効率的なマルチモーダルモデルで、テキスト、画像、ビデオ、オーディオ入力を処理し、テキスト出力を生成することができます。低リソースデバイスでの実行に特化して設計され、革新的なパラメータ管理技術を備えています。

モデル特徴

マルチモーダル入力サポート

テキスト、画像、ビデオ、オーディオ入力を同時に処理し、真のマルチモーダル理解を実現します。

効率的なパラメータ管理

選択的パラメータ活性化技術を採用し、20億の有効パラメータを持つモデルの性能を従来のより大きなモデルに近づけます。

低リソース最適化

低リソースデバイスでの効率的な実行に特化して設計され、メモリ使用量は従来の20億パラメータモデルと同等です。

広範な言語サポート

140種以上の言語のデータで訓練され、多言語処理能力を備えています。

モデル能力

テキスト生成

画像内容分析

ビデオ内容理解

音声文字起こし

多言語処理

コード生成

数学的推論

使用事例

コンテンツ作成と通信

創造的なテキスト生成

詩、脚本、マーケティングコピーなどの創造的なコンテンツを生成します。

要求に合った多様な創造的なテキストを生成できます。

画像内容記述

画像内容を分析し、詳細な記述を生成します。

画像内のオブジェクトとシーンを正確に識別できます。

カスタマーサービス

マルチモーダルカスタマーサービスアシスタント

テキスト、画像などの様々な方法でユーザーと対話します。

正確な質問の解答とガイダンスを提供します。

研究と教育

🚀 Gemma 3nモデル

Gemma 3nはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。このモデルはテキスト、オーディオ、ビジュアル（画像とビデオ）の入力をサポートし、様々なタスクに適用可能です。

🚀 クイックスタート

このリポジトリはGemma 3n E2B IT（指令）のリリースバージョンに対応しており、Hugging Faceのtransformersライブラリと組み合わせて使用できます。テキスト、オーディオ、ビジュアル（画像とビデオ）の入力をサポートしています。

⚠️ 重要な注意

Hugging Face上でGemmaを使用するには、Googleの使用許諾を確認して同意する必要があります。Hugging Faceにログインしていることを確認し、以下のボタンをクリックしてください。リクエストはすぐに処理されます。

以下のボタンをクリックして許諾を確認してください：[許諾を確認](javascript:void(0))

✨ 主な機能

マルチモーダル入力：テキスト、画像、ビデオ、オーディオの入力をサポートし、テキスト出力を生成します。
高効率実行：低リソースデバイスでの高効率な実行に最適化されています。
アーキテクチャの革新：有効パラメータに基づく2種類のサイズがあり、低利用率の行列をアクセラレータからアンロードすることで、モデルのメモリ使用量を従来の2Bモデルと同等に抑えることができます。
MatFormerアーキテクチャ：E4Bモデルでサブモデルをネストできます。

📦 インストール

まず、transformersライブラリをインストールします。Gemma 3nはtransformers 4.53.0バージョンからサポートされています。

$ pip install -U transformers

💻 使用例

基本的な使用法

pipeline APIを使用して推論を行います：

from transformers import pipeline
import torch

pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e2b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高度な使用法

指令調整モデルを使用する場合は、まず入力をチャットテンプレートで処理し、それをパイプラインに渡す必要があります：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]

output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

単一のGPUでモデルを実行する

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch

model_id = "google/gemma-3n-e2b-it"

model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device="cuda", torch_dtype=torch.bfloat16,).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 ドキュメント

モデル情報

概要

GemmaはGoogleが提供する軽量で最先端のオープンソースモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3nモデルは低リソースデバイスでの高効率な実行に最適化されており、テキスト、画像、ビデオ、オーディオなどのマルチモーダル入力を処理し、テキスト出力を生成することができます。これらのモデルの事前学習と指令調整のバリエーションはオープンな重みを持ち、140種類以上の口語言語のデータで訓練されています。

Gemma 3nモデルは選択的パラメータアクティベーション技術を使用してリソース要件を削減しており、この技術によりモデルは実際に含まれるパラメータ総数よりも少ない2Bと4Bの有効パラメータサイズで動作することができます。Gemma 3nの効率的なパラメータ管理技術の詳細については、Gemma 3nページを参照してください。

入力と出力

入力：
- テキスト文字列（質問、プロンプト、要約するドキュメントなど）。
- 画像（256x256、512x512、または768x768の解像度に正規化され、各256トークンにエンコードされる）。
- オーディオデータ（モノラル、毎秒6.25トークンにエンコードされる）。
- 総入力コンテキストは32Kトークン。
出力：
- 入力に対して生成されるテキスト（質問の回答、画像内容の分析、ドキュメントの要約など）。
- 総出力長は最大32Kトークンで、リクエスト入力のトークン数を差し引いたもの。

モデルデータ

訓練データセット

これらのモデルは、様々なソースから構成される合計約11兆トークンのデータセットで訓練されています。訓練データの知識截止日は2024年6月です。主な構成要素は以下の通りです：

ウェブドキュメント：多様なウェブテキストの集合で、モデルが幅広い言語スタイル、トピック、語彙に触れることができます。訓練データセットには140種類以上の言語の内容が含まれています。
コード：コードに触れることで、モデルはプログラミング言語の構文やパターンを学習し、コード生成やコード関連の問題の理解能力を向上させることができます。
数学：数学テキストでの訓練は、モデルが論理的な推論、記号表記、数学的なクエリの解決を学習するのに役立ちます。
画像：幅広い画像を使用することで、モデルは画像分析やビジュアルデータの抽出タスクを実行することができます。
オーディオ：多様な音声サンプルを使用することで、モデルは音声を認識し、録音からテキストを文字起こしし、オーディオデータ内の情報を識別することができます。

これらの多様なデータソースの組み合わせは、様々なタスクやデータ形式を処理できる強力なマルチモーダルモデルを訓練するために不可欠です。

データ前処理

訓練データに適用される主なデータクリーニングとフィルタリング方法は以下の通りです：

CSAMフィルタリング：データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待材料）フィルタリングを適用し、有害で違法な内容を排除します。
敏感データフィルタリング：Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して訓練データセットから特定の個人情報やその他の敏感データをフィルタリングします。
その他の方法：内容の品質と安全性に基づいてフィルタリングを行い、当社のポリシーに準拠します。

実装情報

ハードウェア

Gemmaはテンソル処理ユニット（TPU）ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して訓練されています。生成モデルの訓練には大量の計算能力が必要であり、TPUは機械学習で一般的な行列演算用に設計されており、この分野で以下のような利点を持っています：

パフォーマンス：TPUは生成モデルの訓練に関わる大量の計算を処理するように特別に設計されており、CPUと比較して訓練速度を大幅に向上させることができます。
メモリ：TPUは通常、大量の高帯域幅メモリを備えており、訓練中に大規模なモデルとバッチサイズを処理することができ、これはモデル品質の向上に役立ちます。
拡張性：TPU Pod（大型TPUクラスター）は、大型の基礎モデルの増加する複雑さを処理するための拡張可能なソリューションを提供します。複数のTPUデバイスに訓練を分散させることで、より高速かつ効率的な処理を実現することができます。
コスト効率：多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの訓練によりコスト効率の高いソリューションを提供することができます。特に、より高速な訓練速度による時間とリソースの節約を考慮すると、その効果が顕著です。

これらの利点はGoogleの持続可能な運用のコミットメントに合致しています。

ソフトウェア

訓練にはJAXとML Pathwaysが使用されています。JAXにより、研究者は最新世代のハードウェア（TPUを含む）を利用して、より高速かつ効率的に大規模なモデルを訓練することができます。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築する最新の取り組みであり、このような大型言語モデルを含む基礎モデルに特に適しています。

JAXとML Pathwaysの組み合わせの使用については、Geminiモデルファミリーに関する論文で説明されています：「JaxとPathwaysの「シングルコントローラ」プログラミングモデルにより、単一のPythonプロセスが訓練プロセス全体を編成することができ、開発ワークフローが大幅に簡素化されます。」

評価

ベンチマークテスト結果

これらのモデルは、全精度（float32）で多数の異なるデータセットと指標に対して評価され、内容生成の様々な側面を網羅しています。ITとマークされた評価結果は指令調整モデルに関するものであり、PTとマークされた評価結果は事前学習モデルに関するものです。

推論と事実性

ベンチマーク	指標	n-shot	E2B PT	E4B PT
HellaSwag	正解率	10-shot	72.2	78.6
BoolQ	正解率	0-shot	76.4	81.6
PIQA	正解率	0-shot	78.9	81.0
SocialIQA	正解率	0-shot	48.8	50.0
TriviaQA	正解率	5-shot	60.8	70.2
Natural Questions	正解率	5-shot	15.5	20.9
ARC-c	正解率	25-shot	51.7	61.6
ARC-e	正解率	0-shot	75.8	81.6
WinoGrande	正解率	5-shot	66.8	71.7
BIG-Bench Hard	正解率	few-shot	44.3	52.9
DROP	トークンF1スコア	1-shot	53.9	60.8

多言語

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MGSM	正解率	0-shot	53.1	60.7
WMT24++ (ChrF)	文字レベルのFスコア	0-shot	42.7	50.1
Include	正解率	0-shot	38.6	57.2
MMLU (ProX)	正解率	0-shot	8.1	19.9
OpenAI MMLU	正解率	0-shot	22.3	35.6
Global-MMLU	正解率	0-shot	55.1	60.3
ECLeKTic	ECLeKTicスコア	0-shot	2.5	1.9

STEMとコード

ベンチマーク	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	緩い正解率/正解率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	正解率	0-shot	6.7	11.6

その他のベンチマーク

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MMLU	正解率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	正解率	0-shot	27.7	37.7
Global-MMLU-Lite	正解率	0-shot	59.0	64.5
MMLU (Pro)	正解率	0-shot	40.5	50.6

倫理とセキュリティ

評価方法

当社の評価方法には、構造化評価と関連する内容ポリシーに対する内部レッドチームテストが含まれています。レッドチームテストは複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理とセキュリティに関連する複数の異なるカテゴリに対して評価され、以下のものが含まれます：

児童安全：テキストからテキスト、画像からテキストのプロンプトを評価し、児童性虐待や搾取を含む児童安全ポリシーをカバーしています。
コンテンツセキュリティ：テキストからテキスト、画像からテキストのプロンプトを評価し、嫌がらせ、暴力や血腥な内容、ハットスピーチを含むセキュリティポリシーをカバーしています。
表現上の危害：テキストからテキスト、画像からテキストのプロンプトを評価し、偏見、ステレオタイプ、有害な関連付けや不正確な情報を含むセキュリティポリシーをカバーしています。

開発段階の評価に加えて、当社は「保証評価」も行っています。これは、責任あるガバナンスの決定を行うための「独立した」内部評価です。これらの評価はモデル開発チームとは別に行われ、リリースに関する決定の根拠を提供します。高レベルの評価結果はモデルチームにフィードバックされますが、プロンプトセットは公開されず、過学習を防ぎ、結果の決定への参考価値を維持します。注目すべき保証評価結果は、リリースレビューの一部として当社の責任とセキュリティ委員会に報告されます。

評価結果

すべてのセキュリティテスト分野で、モデルは児童安全、コンテンツセキュリティ、表現上の危害などのカテゴリで、以前のGemmaモデルに比べて安全レベルに達していることがわかりました。すべてのテストはセキュリティフィルターを使用せずに行われ、モデルの能力と動作を評価しました。テキストからテキスト、画像からテキスト、オーディオからテキスト、およびすべてのモデルサイズについて、モデルはポリシー違反をほとんど発生させず、以前のGemmaモデルに比べて重大な違反に関して著しい改善が見られました。当社の評価の限界の1つは、主に英語のプロンプトが含まれていることです。

使用と制限

想定される用途

オープン生成モデルは、様々な業界や分野で幅広い用途があります。以下の潜在的な用途のリストは網羅的なものではなく、モデル作成者がモデルの訓練と開発過程で考慮した可能なユースケースに関するコンテキスト情報を提供することを目的としています。

コンテンツ作成とコミュニケーション：
- テキスト生成：詩、脚本、コード、マーケティングコピー、電子メール草稿などの創造的なテキスト形式を生成します。
- チャットボットと対話型AI：カスタマーサービス、バーチャルアシスタント、またはインタラクティブなアプリケーションの対話インターフェースを提供します。
- テキスト要約：テキストコーパス、研究論文、またはレポートの簡潔な要約を生成します。
- 画像データ抽出：ビジュアルデータを抽出、解釈、要約してテキストコミュニケーションに使用します。
- オーディオデータ抽出：口語を文字起こしし、音声を他の言語のテキストに翻訳し、音声データを分析します。
研究と教育：
- 自然言語処理（NLP）と生成モデルの研究：これらのモデルは、研究者が生成実験を行うための基礎として使用できます。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}