模型概述
模型特點
模型能力
使用案例
🚀 Gemma-3n-E4B-it-litert-preview模型
Gemma-3n-E4B-it-litert-preview是基於Google的Gemma 3n模型微調的版本,支持圖像和文本輸入並生成文本輸出,適用於多模態任務。
🚀 快速開始
模型信息
屬性 | 詳情 |
---|---|
基礎模型 | google/gemma-3n-E4B-it-litert-preview |
支持語言 | 英文 |
任務類型 | 圖像文本到文本生成 |
庫名稱 | transformers |
許可證 | gemma |
標籤 | gemma3、unsloth、transformers、gemma、google |
重要提示
⚠️ 重要提示
此模型是從google/gemma-3n-E4B-it更新而來。
學習與使用指南
- 運行與微調指南:瞭解如何正確運行和微調Gemma 3n。
- 模型版本集合:查看所有版本的Gemma 3n,包括GGUF、4位和16位格式。
- 性能優勢:Unsloth Dynamic 2.0在量化模型中實現了最優的準確性和性能。
社區鏈接
使用說明
- 當前支持:目前僅支持文本輸入。
- Ollama運行命令:
ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL
,該命令會自動設置正確的聊天模板和參數。 - 參數設置:建議設置溫度為1.0,top_k為64,top_p為0.95,min_p為0.0。
- 最大令牌數:Gemma 3n的最大上下文長度為32K令牌。
- 聊天模板示例:
<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n
- 詳細指南:查看詳細使用指南。
免費微調
- 免費微調Gemma 3n (4B):使用Google Colab筆記本。
- 博客文章:閱讀關於Gemma 3n支持的博客。
- 更多筆記本:查看其他筆記本。
Unsloth支持的模型及優勢
Unsloth支持的模型 | 免費筆記本鏈接 | 性能 | 內存使用 |
---|---|---|---|
Gemma-3n-E4B | 立即在Colab開始 | 快2倍 | 減少80% |
GRPO with Gemma 3 (1B) | 立即在Colab開始 | 快2倍 | 減少80% |
Gemma 3 (4B) | 立即在Colab開始 | 快2倍 | 減少60% |
Qwen3 (14B) | 立即在Colab開始 | 快2倍 | 減少60% |
DeepSeek-R1-0528-Qwen3-8B (14B) | 立即在Colab開始 | 快2倍 | 減少80% |
Llama-3.2 (3B) | 立即在Colab開始 | 快2.4倍 | 減少58% |
模型卡片
✨ 主要特性
模型概述
Gemma是Google推出的輕量級、最先進的開源模型系列,基於與Gemini模型相同的研究和技術構建。Gemma 3n模型專為在低資源設備上高效運行而設計,支持多模態輸入,包括文本、圖像、視頻和音頻,並生成文本輸出。預訓練和指令微調版本的模型權重開放,且使用了超過140種語言的數據進行訓練。
輸入輸出
- 輸入:
- 文本字符串,如問題、提示或待總結的文檔。
- 圖像,歸一化為256x256、512x512或768x768分辨率,並編碼為每個256個令牌。
- 音頻數據,單通道每秒編碼為6.25個令牌。
- 總輸入上下文為32K令牌。
- 輸出:
- 針對輸入生成的文本,如問題的答案、圖像內容分析或文檔摘要。
- 總輸出長度最多為32K令牌,減去請求輸入的令牌數。
📦 安裝指南
首先,安裝Transformers庫。Gemma 3n從transformers 4.53.0版本開始支持。
$ pip install -U transformers
💻 使用示例
基礎用法
使用pipeline
API初始化模型和處理器進行推理:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e4b-it",
device="cuda",
torch_dtype=torch.bfloat16,
)
高級用法
對於指令微調模型,需要先使用聊天模板處理輸入,然後傳遞給pipeline:
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
{"type": "text", "text": "What animal is on the candy?"}
]
}
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.
在單個GPU上運行模型
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
{
"role": "system",
"content": [{"type": "text", "text": "You are a helpful assistant."}]
},
{
"role": "user",
"content": [
{"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
{"type": "text", "text": "Describe this image in detail."}
]
}
]
inputs = processor.apply_chat_template(
messages,
add_generation_prompt=True,
tokenize=True,
return_dict=True,
return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.
📚 詳細文檔
模型數據
訓練數據集
這些模型在包含約11萬億令牌的多樣化數據集上進行訓練,訓練數據的知識截止日期為2024年6月。主要組成部分包括:
- 網頁文檔:多樣化的網頁文本集合,確保模型接觸到廣泛的語言風格、主題和詞彙,訓練數據集包含超過140種語言的內容。
- 代碼:讓模型接觸代碼有助於學習編程語言的語法和模式,提高生成代碼和理解代碼相關問題的能力。
- 數學:在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
- 圖像:廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。
- 音頻:多樣化的聲音樣本使模型能夠識別語音、從錄音中轉錄文本並識別音頻數據中的信息。
數據預處理
訓練數據應用了以下關鍵的數據清理和過濾方法:
- CSAM過濾:在數據準備過程的多個階段應用嚴格的CSAM(兒童性虐待材料)過濾,確保排除有害和非法內容。
- 敏感數據過濾:作為使Gemma預訓練模型安全可靠的一部分,使用自動化技術從訓練集中過濾出某些個人信息和其他敏感數據。
- 其他方法:根據我們的政策進行內容質量和安全性過濾。
實現信息
硬件
Gemma使用張量處理單元 (TPU)硬件(TPUv4p、TPUv5p和TPUv5e)進行訓練。訓練生成式模型需要大量的計算能力,TPU專為機器學習中常見的矩陣運算而設計,具有以下優勢:
- 性能:TPU專門用於處理訓練生成式模型涉及的大量計算,與CPU相比可以顯著加速訓練。
- 內存:TPU通常配備大量高帶寬內存,允許在訓練期間處理大型模型和批量大小,有助於提高模型質量。
- 可擴展性:TPU Pod(大型TPU集群)為處理大型基礎模型的不斷增長的複雜性提供了可擴展的解決方案,可以跨多個TPU設備分佈訓練以實現更快、更高效的處理。
- 成本效益:在許多情況下,與基於CPU的基礎設施相比,TPU可以為訓練大型模型提供更具成本效益的解決方案,特別是考慮到更快的訓練節省的時間和資源。
軟件
訓練使用JAX和ML Pathways進行。JAX允許研究人員利用最新一代的硬件(包括TPU)進行更快、更高效的大型模型訓練。ML Pathways是Google構建能夠跨多個任務進行泛化的人工智能系統的最新努力,特別適用於基礎模型,包括此類大型語言模型。
評估
基準測試結果
這些模型在全精度(float32)下針對大量不同的數據集和指標進行評估,以涵蓋內容生成的不同方面。標記為IT的評估結果是針對指令微調模型,標記為PT的評估結果是針對預訓練模型。
推理與事實性
基準測試 | 指標 | n-shot | E2B PT | E4B PT |
---|---|---|---|---|
HellaSwag | 準確率 | 10-shot | 72.2 | 78.6 |
BoolQ | 準確率 | 0-shot | 76.4 | 81.6 |
PIQA | 準確率 | 0-shot | 78.9 | 81.0 |
SocialIQA | 準確率 | 0-shot | 48.8 | 50.0 |
TriviaQA | 準確率 | 5-shot | 60.8 | 70.2 |
Natural Questions | 準確率 | 5-shot | 15.5 | 20.9 |
ARC-c | 準確率 | 25-shot | 51.7 | 61.6 |
ARC-e | 準確率 | 0-shot | 75.8 | 81.6 |
WinoGrande | 準確率 | 5-shot | 66.8 | 71.7 |
BIG-Bench Hard | 準確率 | few-shot | 44.3 | 52.9 |
DROP | 令牌F1分數 | 1-shot | 53.9 | 60.8 |
多語言
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MGSM | 準確率 | 0-shot | 53.1 | 60.7 |
WMT24++ (ChrF) | 字符級F分數 | 0-shot | 42.7 | 50.1 |
Include | 準確率 | 0-shot | 38.6 | 57.2 |
MMLU (ProX) | 準確率 | 0-shot | 8.1 | 19.9 |
OpenAI MMLU | 準確率 | 0-shot | 22.3 | 35.6 |
Global-MMLU | 準確率 | 0-shot | 55.1 | 60.3 |
ECLeKTic | ECLeKTic分數 | 0-shot | 2.5 | 1.9 |
STEM與代碼
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
GPQA Diamond | 寬鬆準確率/準確率 | 0-shot | 24.8 | 23.7 |
LiveCodeBench v5 | pass@1 | 0-shot | 18.6 | 25.7 |
Codegolf v2.2 | pass@1 | 0-shot | 11.0 | 16.8 |
AIME 2025 | 準確率 | 0-shot | 6.7 | 11.6 |
其他基準測試
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MMLU | 準確率 | 0-shot | 60.1 | 64.9 |
MBPP | pass@1 | 3-shot | 56.6 | 63.6 |
HumanEval | pass@1 | 0-shot | 66.5 | 75.0 |
LiveCodeBench | pass@1 | 0-shot | 13.2 | 13.2 |
HiddenMath | 準確率 | 0-shot | 27.7 | 37.7 |
Global-MMLU-Lite | 準確率 | 0-shot | 59.0 | 64.5 |
MMLU (Pro) | 準確率 | 0-shot | 40.5 | 50.6 |
倫理與安全
評估方法
我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行,每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估,包括:
- 兒童安全:評估文本到文本和圖像到文本的提示,涵蓋兒童安全政策,包括兒童性虐待和剝削。
- 內容安全:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括騷擾、暴力和血腥內容以及仇恨言論。
- 代表性危害:評估文本到文本和圖像到文本的提示,涵蓋安全政策,包括偏見、刻板印象和有害關聯或不準確信息。
除了開發階段的評估,我們還進行“保證評估”,這是我們獨立的內部評估,用於責任治理決策。這些評估與模型開發團隊分開進行,以提供決策依據。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
📄 許可證
本模型使用gemma許可證。








