モデル概要
モデル特徴
モデル能力
使用事例
🚀 Gemma-3n-E4B-it-litert-previewモデル
Gemma-3n-E4B-it-litert-previewは、GoogleのGemma 3nモデルを微調整したバージョンです。画像とテキストの入力をサポートし、テキスト出力を生成し、マルチモーダルタスクに適しています。
🚀 クイックスタート
モデル情報
属性 | 詳細 |
---|---|
ベースモデル | google/gemma-3n-E4B-it-litert-preview |
サポート言語 | 英語 |
タスクタイプ | 画像テキストからテキスト生成 |
ライブラリ名 | transformers |
ライセンス | gemma |
タグ | gemma3、unsloth、transformers、gemma、google |
重要な注意事項
⚠️ 重要な注意事項
このモデルはgoogle/gemma-3n-E4B-itから更新されたものです。
学習と使用ガイド
- 実行と微調整ガイド:Gemma 3nを正しく実行し、微調整する方法を学ぶ。
- モデルバージョンコレクション:すべてのバージョンのGemma 3nを確認する(GGUF、4ビット、16ビット形式を含む)。
- 性能の利点:Unsloth Dynamic 2.0は、量子化モデルにおいて最適な精度と性能を実現します。
コミュニティリンク
使用説明
- 現在のサポート:現在はテキスト入力のみをサポートしています。
- Ollama実行コマンド:
ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL
このコマンドは、正しいチャットテンプレートとパラメータを自動的に設定します。 - パラメータ設定:温度を1.0、top_kを64、top_pを0.95、min_pを0.0に設定することをおすすめします。
- 最大トークン数:Gemma 3nの最大コンテキスト長は32Kトークンです。
- チャットテンプレート例:
<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n
- 詳細ガイド:詳細な使用ガイドを確認する。
無料微調整
- Gemma 3n (4B)を無料で微調整する:Google Colabノートブックを使用する。
- ブログ記事:Gemma 3nのサポートに関するブログを読む。
- その他のノートブック:他のノートブックを確認する。
Unslothがサポートするモデルとその利点
Unslothがサポートするモデル | 無料ノートブックリンク | 性能 | メモリ使用量 |
---|---|---|---|
Gemma-3n-E4B | Colabですぐに始める | 2倍速 | 80%削減 |
GRPO with Gemma 3 (1B) | Colabですぐに始める | 2倍速 | 80%削減 |
Gemma 3 (4B) | Colabですぐに始める | 2倍速 | 60%削減 |
Qwen3 (14B) | Colabですぐに始める | 2倍速 | 60%削減 |
DeepSeek-R1-0528-Qwen3-8B (14B) | Colabですぐに始める | 2倍速 | 80%削減 |
Llama-3.2 (3B) | Colabですぐに始める | 2.4倍速 | 58%削減 |
モデルカード
✨ 主な機能
モデル概要
Gemmaは、Googleが開発した軽量で最先端のオープンソースモデルシリーズで、Geminiモデルと同じ研究と技術に基づいて構築されています。Gemma 3nモデルは、低リソースデバイスでの効率的な実行を目的として設計されており、テキスト、画像、ビデオ、音声を含むマルチモーダル入力をサポートし、テキスト出力を生成します。事前学習と命令微調整バージョンのモデル重みが公開されており、140種類以上の言語のデータを使用して学習されています。
入出力
- 入力:
- テキスト文字列、例えば質問、プロンプト、または要約するドキュメント。
- 画像は、256x256、512x512、または768x768の解像度に正規化され、各256トークンにエンコードされます。
- 音声データは、単チャンネルで毎秒6.25トークンにエンコードされます。
- 総入力コンテキストは32Kトークンです。
- 出力:
- 入力に対して生成されたテキスト、例えば質問の答え、画像内容の分析、またはドキュメントの要約。
- 総出力長は、リクエスト入力のトークン数を差し引いて最大32Kトークンです。
📦 インストール
まず、Transformersライブラリをインストールします。Gemma 3nはtransformers 4.53.0バージョンからサポートされています。
$ pip install -U transformers
💻 使用例
基本的な使用法
pipeline
APIを使用してモデルとプロセッサを初期化し、推論を実行します:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e4b-it",
device="cuda",
torch_dtype=torch.bfloat16,
)
高度な使用法
命令微調整モデルの場合、まずチャットテンプレートを使用して入力を処理し、それをpipelineに渡す必要があります:
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
単一GPUでのモデル実行
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
📚 ドキュメント
モデルデータ
学習データセット
これらのモデルは、約11兆トークンを含む多様なデータセットで学習されており、学習データの知識截止日は2024年6月です。主な構成要素は以下の通りです:
- ウェブドキュメント:多様なウェブテキストの集合で、モデルが広範な言語スタイル、トピック、語彙に触れることを保証します。学習データセットには140種類以上の言語の内容が含まれています。
- コード:モデルがコードに触れることで、プログラミング言語の構文とパターンを学習し、コード生成とコード関連の問題の理解能力が向上します。
- 数学:数学テキストでの学習は、モデルが論理的な推論、記号表現、数学的なクエリの解決を学習するのに役立ちます。
- 画像:広範な画像データにより、モデルは画像分析と視覚データ抽出タスクを実行できます。
- 音声:多様な音声サンプルにより、モデルは音声を識別し、録音からテキストを文字起こしし、音声データ内の情報を識別できます。
データ前処理
学習データには、以下の重要なデータクリーニングとフィルタリング方法が適用されています:
- CSAMフィルタリング:データ準備プロセスの複数の段階で、厳格なCSAM(児童性虐待材料)フィルタリングが適用され、有害で違法なコンテンツが排除されます。
- 敏感データフィルタリング:Gemma事前学習モデルを安全かつ信頼できるものにするための一環として、自動化技術を使用して学習データセットから特定の個人情報やその他の敏感なデータがフィルタリングされます。
- その他の方法:当社のポリシーに基づいて、コンテンツの品質と安全性のフィルタリングが行われます。
実装情報
ハードウェア
Gemmaは、テンソル処理ユニット (TPU)ハードウェア(TPUv4p、TPUv5p、TPUv5e)を使用して学習されています。生成モデルの学習には大量の計算能力が必要であり、TPUは機械学習で一般的な行列演算用に設計されており、以下の利点があります:
- 性能:TPUは、生成モデルの学習に関わる大量の計算を処理するように特別に設計されており、CPUと比較して学習を大幅に高速化できます。
- メモリ:TPUは通常、大量の高帯域幅メモリを備えており、学習中に大型モデルとバッチサイズを処理でき、モデルの品質向上に役立ちます。
- 拡張性:TPU Pod(大型TPUクラスター)は、大型基礎モデルの増大する複雑さを処理するための拡張可能なソリューションを提供し、複数のTPUデバイスに学習を分散させて、より高速で効率的な処理を実現できます。
- コスト効率:多くの場合、CPUベースのインフラストラクチャと比較して、TPUは大型モデルの学習によりコスト効率の高いソリューションを提供できます。特に、より高速な学習による時間とリソースの節約を考慮すると。
ソフトウェア
学習にはJAXとML Pathwaysが使用されています。JAXにより、研究者は最新世代のハードウェア(TPUを含む)を利用して、より高速で効率的な大型モデルの学習が可能になります。ML Pathwaysは、Googleが複数のタスクにわたって汎化できる人工知能システムを構築する最新の取り組みで、このような大型言語モデルを含む基礎モデルに特に適しています。
評価
ベンチマークテスト結果
これらのモデルは、全精度(float32)で多数の異なるデータセットと指標に対して評価され、コンテンツ生成のさまざまな側面を網羅しています。ITとマークされた評価結果は命令微調整モデルに関するもので、PTとマークされた評価結果は事前学習モデルに関するものです。
推論と事実性
ベンチマーク | 指標 | n-shot | E2B PT | E4B PT |
---|---|---|---|---|
HellaSwag | 正解率 | 10-shot | 72.2 | 78.6 |
BoolQ | 正解率 | 0-shot | 76.4 | 81.6 |
PIQA | 正解率 | 0-shot | 78.9 | 81.0 |
SocialIQA | 正解率 | 0-shot | 48.8 | 50.0 |
TriviaQA | 正解率 | 5-shot | 60.8 | 70.2 |
Natural Questions | 正解率 | 5-shot | 15.5 | 20.9 |
ARC-c | 正解率 | 25-shot | 51.7 | 61.6 |
ARC-e | 正解率 | 0-shot | 75.8 | 81.6 |
WinoGrande | 正解率 | 5-shot | 66.8 | 71.7 |
BIG-Bench Hard | 正解率 | few-shot | 44.3 | 52.9 |
DROP | トークンF1スコア | 1-shot | 53.9 | 60.8 |
多言語
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MGSM | 正解率 | 0-shot | 53.1 | 60.7 |
WMT24++ (ChrF) | 文字レベルのFスコア | 0-shot | 42.7 | 50.1 |
Include | 正解率 | 0-shot | 38.6 | 57.2 |
MMLU (ProX) | 正解率 | 0-shot | 8.1 | 19.9 |
OpenAI MMLU | 正解率 | 0-shot | 22.3 | 35.6 |
Global-MMLU | 正解率 | 0-shot | 55.1 | 60.3 |
ECLeKTic | ECLeKTicスコア | 0-shot | 2.5 | 1.9 |
STEMとコード
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
GPQA Diamond | 緩やかな正解率/正解率 | 0-shot | 24.8 | 23.7 |
LiveCodeBench v5 | pass@1 | 0-shot | 18.6 | 25.7 |
Codegolf v2.2 | pass@1 | 0-shot | 11.0 | 16.8 |
AIME 2025 | 正解率 | 0-shot | 6.7 | 11.6 |
その他のベンチマーク
ベンチマーク | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MMLU | 正解率 | 0-shot | 60.1 | 64.9 |
MBPP | pass@1 | 3-shot | 56.6 | 63.6 |
HumanEval | pass@1 | 0-shot | 66.5 | 75.0 |
LiveCodeBench | pass@1 | 0-shot | 13.2 | 13.2 |
HiddenMath | 正解率 | 0-shot | 27.7 | 37.7 |
Global-MMLU-Lite | 正解率 | 0-shot | 59.0 | 64.5 |
MMLU (Pro) | 正解率 | 0-shot | 40.5 | 50.6 |
倫理と安全
評価方法
当社の評価方法には、構造化評価と関連コンテンツポリシーの内部レッドチームテストが含まれています。レッドチームテストは、複数の異なるチームによって行われ、各チームには異なる目標と人為的な評価指標があります。これらのモデルは、倫理と安全に関連する複数の異なるカテゴリに対して評価され、以下が含まれます:
- 子どもの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、子どもの安全ポリシーを対象とし、子ども性虐待や搾取を含みます。
- コンテンツの安全:テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを対象とし、嫌がらせ、暴力や血腥なコンテンツ、ハイトスピーチを含みます。
- 表現上の危害:テキストからテキスト、画像からテキストのプロンプトを評価し、安全ポリシーを対象とし、偏見、ステレオタイプ、有害な関連付け、または不正確な情報を含みます。
開発段階の評価に加えて、「保証評価」も行っています。これは、責任あるガバナンス決定のための独立した内部評価です。これらの評価は、モデル開発チームとは別に行われ、決定の根拠を提供します。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
📄 ライセンス
このモデルはgemmaライセンスを使用しています。








