Gemma-3n-E4B-it-litert-previewオープンソースモデル - 画像とテキスト入力をサポートし、マルチモーダルタスクに使用

ホーム

Gemma 3n E4B It Litert Preview GGUF

unslothによって開発

Gemma-3n-E4B-it-litert-previewはGoogleのGemma 3nモデルを微調整したバージョンで、画像とテキスト入力をサポートし、テキスト出力を生成し、マルチモーダルタスクに適しています。

画像生成テキスト

Transformers

英語#マルチモーダル入力 #32K長文脈 #軽量かつ高効率

ダウンロード数 134

リリース時間 : 7/8/2025

モデル概要

GemmaはGoogleが提供する軽量で最先端のオープンソースモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3nモデルは低リソースデバイスでの効率的な実行を目的として設計されており、テキスト、画像、ビデオ、オーディオを含むマルチモーダル入力をサポートし、テキスト出力を生成します。

モデル特徴

マルチモーダル入力サポート

テキスト、画像、ビデオ、オーディオ入力をサポートし、テキスト出力を生成します。

高効率実行

低リソースデバイスでの高効率実行を目的として設計されており、リソースが制限された環境に適しています。

高性能

様々なベンチマークテストで優れた性能を発揮し、特に推論と事実性タスクで顕著です。

広範な言語サポート

学習データには140種類以上の言語の内容が含まれており、多言語タスクをサポートします。

モデル能力

テキスト生成

画像分析

音声文字起こし

マルチモーダルタスク処理

使用事例

コンテンツ生成

画像説明生成

入力された画像に基づいて詳細な説明テキストを生成します。

正確で詳細な画像説明を生成します。

ドキュメント要約

入力されたドキュメントを要約し、簡潔な要約を生成します。

高品質のドキュメント要約を生成します。

質問応答システム

マルチモーダル質問応答

画像とテキスト入力を組み合わせて質問に回答します。

特に視覚関連の質問に対して正確な回答を提供します。

🚀 Gemma-3n-E4B-it-litert-previewモデル

Gemma-3n-E4B-it-litert-previewは、GoogleのGemma 3nモデルを微調整したバージョンです。画像とテキストの入力をサポートし、テキスト出力を生成し、マルチモーダルタスクに適しています。

🚀 クイックスタート

モデル情報

属性	詳細
ベースモデル	google/gemma-3n-E4B-it-litert-preview
サポート言語	英語
タスクタイプ	画像テキストからテキスト生成
ライブラリ名	transformers
ライセンス	gemma
タグ	gemma3、unsloth、transformers、gemma、google

重要な注意事項

⚠️ 重要な注意事項

このモデルはgoogle/gemma-3n-E4B-itから更新されたものです。

学習と使用ガイド

実行と微調整ガイド：Gemma 3nを正しく実行し、微調整する方法を学ぶ。
モデルバージョンコレクション：すべてのバージョンのGemma 3nを確認する（GGUF、4ビット、16ビット形式を含む）。
性能の利点：Unsloth Dynamic 2.0は、量子化モデルにおいて最適な精度と性能を実現します。

コミュニティリンク

使用説明

現在のサポート：現在はテキスト入力のみをサポートしています。
Ollama実行コマンド：ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL このコマンドは、正しいチャットテンプレートとパラメータを自動的に設定します。
パラメータ設定：温度を1.0、top_kを64、top_pを0.95、min_pを0.0に設定することをおすすめします。
最大トークン数：Gemma 3nの最大コンテキスト長は32Kトークンです。
チャットテンプレート例：

<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n

詳細ガイド：詳細な使用ガイドを確認する。

無料微調整

Gemma 3n (4B)を無料で微調整する：Google Colabノートブックを使用する。
ブログ記事：Gemma 3nのサポートに関するブログを読む。
その他のノートブック：他のノートブックを確認する。

Unslothがサポートするモデルとその利点

Unslothがサポートするモデル	無料ノートブックリンク	性能	メモリ使用量
Gemma-3n-E4B	Colabですぐに始める	2倍速	80%削減
GRPO with Gemma 3 (1B)	Colabですぐに始める	2倍速	80%削減
Gemma 3 (4B)	Colabですぐに始める	2倍速	60%削減
Qwen3 (14B)	Colabですぐに始める	2倍速	60%削減
DeepSeek-R1-0528-Qwen3-8B (14B)	Colabですぐに始める	2倍速	80%削減
Llama-3.2 (3B)	Colabですぐに始める	2.4倍速	58%削減

モデルカード

モデルページ：Gemma 3n
リソースと技術ドキュメント：
使用条件：条件
作者：Google DeepMind

✨ 主な機能

モデル概要

Gemmaは、Googleが開発した軽量で最先端のオープンソースモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3nモデルは、低リソースデバイスでの効率的な実行を目的として設計されており、テキスト、画像、ビデオ、音声を含むマルチモーダル入力をサポートし、テキスト出力を生成します。事前学習と命令微調整バージョンのモデル重みが公開されており、140種類以上の言語のデータを使用して学習されています。

入出力

入力：
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント。
- 画像は、256x256、512x512、または768x768の解像度に正規化され、各256トークンにエンコードされます。
- 音声データは、単チャンネルで毎秒6.25トークンにエンコードされます。
- 総入力コンテキストは32Kトークンです。
出力：
- 入力に対して生成されたテキスト、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力長は、リクエスト入力のトークン数を差し引いて最大32Kトークンです。

📦 インストール

まず、Transformersライブラリをインストールします。Gemma 3nはtransformers 4.53.0バージョンからサポートされています。

$ pip install -U transformers

💻 使用例

基本的な使用法

pipeline APIを使用してモデルとプロセッサを初期化し、推論を実行します：

from transformers import pipeline
import torch
pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高度な使用法

命令微調整モデルの場合、まずチャットテンプレートを使用して入力を処理し、それをpipelineに渡す必要があります：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

単一GPUでのモデル実行

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 ドキュメント

モデルデータ

学習データセット

これらのモデルは、約11兆トークンを含む多様なデータセットで学習されており、学習データの知識截止日は2024年6月です。主な構成要素は以下の通りです：

ウェブドキュメント：多様なウェブテキストの集合で、モデルが広範な言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語の内容が含まれています。
コード：モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
数学：数学テキストでの学習は、モデルが論理的な推論、記号表現、数学的なクエリの解決を学習するのに役立ちます。
画像：広範な画像データにより、モデルは画像分析と視覚データ抽出タスクを実行できます。
音声：多様な音声サンプルにより、モデルは音声を識別し、録音からテキストを文字起こしし、音声データ内の情報を識別できます。

データ前処理

学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています：

CSAMフィルタリング：データ準備プロセスの複数の段階で、厳格なCSAM（児童性虐待材料）フィルタリングが適用され、有害で違法なコンテンツが排除されます。
敏感データフィルタリング：Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
その他の方法：当社のポリシーに基づいて、コンテンツの品質と安全性のフィルタリングが行われます。

実装情報

ハードウェア

Gemmaは、テンソル処理ユニット (TPU)ハードウェア（TPUv4p、TPUv5p、TPUv5e）を使用して学習されています。生成モデルの学習には大量の計算能力が必要であり、TPUは機械学習で一般的な行列演算用に設計されており、以下の利点があります：

性能：TPUは、生成モデルの学習に関わる大量の計算を処理するように特別に設計されており、CPUと比較して学習を大幅に高速化できます。
メモリ：TPUは通常、大量の高帯域幅メモリを備えており、学習中に大型モデルとバッチサイズを処理でき、モデルの品質向上に役立ちます。
拡張性：TPU Pod（大型TPUクラスター）は、大型基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供し、複数のTPUデバイスに学習を分散させて、より高速で効率的な処理を実現できます。
コスト効率：多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の高いソリューションを提供できます。特に、より高速な学習による時間とリソースの節約を考慮すると。

ソフトウェア

学習にはJAXとML Pathwaysが使用されています。JAXにより、研究者は最新世代のハードウェア（TPUを含む）を利用して、より高速で効率的な大型モデルの学習が可能になります。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築する最新の取り組みで、このような大型言語モデルを含む基礎モデルに特に適しています。

評価

ベンチマークテスト結果

これらのモデルは、全精度（float32）で多数の異なるデータセットと指標に対して評価され、コンテンツ生成のさまざまな側面を網羅しています。ITとマークされた評価結果は命令微調整モデルに関するもので、PTとマークされた評価結果は事前学習モデルに関するものです。

推論と事実性

ベンチマーク	指標	n-shot	E2B PT	E4B PT
HellaSwag	正解率	10-shot	72.2	78.6
BoolQ	正解率	0-shot	76.4	81.6
PIQA	正解率	0-shot	78.9	81.0
SocialIQA	正解率	0-shot	48.8	50.0
TriviaQA	正解率	5-shot	60.8	70.2
Natural Questions	正解率	5-shot	15.5	20.9
ARC-c	正解率	25-shot	51.7	61.6
ARC-e	正解率	0-shot	75.8	81.6
WinoGrande	正解率	5-shot	66.8	71.7
BIG-Bench Hard	正解率	few-shot	44.3	52.9
DROP	トークンF1スコア	1-shot	53.9	60.8

多言語

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MGSM	正解率	0-shot	53.1	60.7
WMT24++ (ChrF)	文字レベルのFスコア	0-shot	42.7	50.1
Include	正解率	0-shot	38.6	57.2
MMLU (ProX)	正解率	0-shot	8.1	19.9
OpenAI MMLU	正解率	0-shot	22.3	35.6
Global-MMLU	正解率	0-shot	55.1	60.3
ECLeKTic	ECLeKTicスコア	0-shot	2.5	1.9

STEMとコード

ベンチマーク	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	緩やかな正解率/正解率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	正解率	0-shot	6.7	11.6

その他のベンチマーク

ベンチマーク	指標	n-shot	E2B IT	E4B IT
MMLU	正解率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	正解率	0-shot	27.7	37.7
Global-MMLU-Lite	正解率	0-shot	59.0	64.5
MMLU (Pro)	正解率	0-shot	40.5	50.6

倫理と安全

評価方法

当社の評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは、複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリに対して評価され、以下が含まれます：

子どもの安全：テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの安全ポリシーを対象とし、子ども性虐待や搾取を含みます。
コンテンツの安全：テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを対象とし、嫌がらせ、暴力や血腥なコンテンツ、ハイトスピーチを含みます。
表現上の危害：テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを対象とし、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含みます。

開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンス決定のための独立した内部評価です。これらの評価は、モデル開発チームとは別に行われ、決定の根拠を提供します。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}