Gemma-3n-E4B-it-litert-preview開源模型 - 支持圖像文本輸入，用於多模態任務

首頁

Gemma 3n E4B It Litert Preview GGUF

由unsloth開發

Gemma-3n-E4B-it-litert-preview是基於Google的Gemma 3n模型微調的版本，支持圖像和文本輸入並生成文本輸出，適用於多模態任務。

圖像生成文本

Transformers

英語#多模態輸入 #32K長上下文 #輕量級高效

下載量 134

發布時間 : 7/8/2025

模型概述

Gemma是Google推出的輕量級、最先進的開源模型系列，基於與Gemini模型相同的研究和技術構建。Gemma 3n模型專為在低資源設備上高效運行而設計，支持多模態輸入，包括文本、圖像、視頻和音頻，並生成文本輸出。

模型特點

多模態輸入支持

支持文本、圖像、視頻和音頻輸入，並生成文本輸出。

高效運行

專為在低資源設備上高效運行而設計，適合資源受限的環境。

高性能

在多種基準測試中表現出色，特別是在推理與事實性任務中。

廣泛的語言支持

訓練數據包含超過140種語言的內容，支持多語言任務。

模型能力

文本生成

圖像分析

音頻轉錄

多模態任務處理

使用案例

內容生成

圖像描述生成

根據輸入的圖像生成詳細的描述文本。

生成準確且詳細的圖像描述。

文檔摘要

對輸入的文檔進行總結，生成簡潔的摘要。

生成高質量的文檔摘要。

問答系統

多模態問答

結合圖像和文本輸入回答問題。

提供準確的答案，特別是在視覺相關的問題上。

🚀 Gemma-3n-E4B-it-litert-preview模型

Gemma-3n-E4B-it-litert-preview是基於Google的Gemma 3n模型微調的版本，支持圖像和文本輸入並生成文本輸出，適用於多模態任務。

🚀 快速開始

模型信息

屬性	詳情
基礎模型	google/gemma-3n-E4B-it-litert-preview
支持語言	英文
任務類型	圖像文本到文本生成
庫名稱	transformers
許可證	gemma
標籤	gemma3、unsloth、transformers、gemma、google

重要提示

⚠️ 重要提示

此模型是從google/gemma-3n-E4B-it更新而來。

學習與使用指南

運行與微調指南：瞭解如何正確運行和微調Gemma 3n。
模型版本集合：查看所有版本的Gemma 3n，包括GGUF、4位和16位格式。
性能優勢：Unsloth Dynamic 2.0在量化模型中實現了最優的準確性和性能。

社區鏈接

使用說明

當前支持：目前僅支持文本輸入。
Ollama運行命令：ollama run hf.co/unsloth/gemma-3n-E4B-it:Q4_K_XL ，該命令會自動設置正確的聊天模板和參數。
參數設置：建議設置溫度為1.0，top_k為64，top_p為0.95，min_p為0.0。
最大令牌數：Gemma 3n的最大上下文長度為32K令牌。
聊天模板示例：

<bos><start_of_turn>user\nHello!<end_of_turn>\n<start_of_turn>model\nHey there!<end_of_turn>\n<start_of_turn>user\nWhat is 1+1?<end_of_turn>\n<start_of_turn>model\n

詳細指南：查看詳細使用指南。

免費微調

免費微調Gemma 3n (4B)：使用Google Colab筆記本。
博客文章：閱讀關於Gemma 3n支持的博客。
更多筆記本：查看其他筆記本。

Unsloth支持的模型及優勢

Unsloth支持的模型	免費筆記本鏈接	性能	內存使用
Gemma-3n-E4B	立即在Colab開始	快2倍	減少80%
GRPO with Gemma 3 (1B)	立即在Colab開始	快2倍	減少80%
Gemma 3 (4B)	立即在Colab開始	快2倍	減少60%
Qwen3 (14B)	立即在Colab開始	快2倍	減少60%
DeepSeek-R1-0528-Qwen3-8B (14B)	立即在Colab開始	快2倍	減少80%
Llama-3.2 (3B)	立即在Colab開始	快2.4倍	減少58%

模型卡片

模型頁面：Gemma 3n
資源與技術文檔：
使用條款：條款
作者：Google DeepMind

✨ 主要特性

模型概述

Gemma是Google推出的輕量級、最先進的開源模型系列，基於與Gemini模型相同的研究和技術構建。Gemma 3n模型專為在低資源設備上高效運行而設計，支持多模態輸入，包括文本、圖像、視頻和音頻，並生成文本輸出。預訓練和指令微調版本的模型權重開放，且使用了超過140種語言的數據進行訓練。

輸入輸出

輸入：
- 文本字符串，如問題、提示或待總結的文檔。
- 圖像，歸一化為256x256、512x512或768x768分辨率，並編碼為每個256個令牌。
- 音頻數據，單通道每秒編碼為6.25個令牌。
- 總輸入上下文為32K令牌。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容分析或文檔摘要。
- 總輸出長度最多為32K令牌，減去請求輸入的令牌數。

📦 安裝指南

首先，安裝Transformers庫。Gemma 3n從transformers 4.53.0版本開始支持。

$ pip install -U transformers

💻 使用示例

基礎用法

使用pipeline API初始化模型和處理器進行推理：

from transformers import pipeline
import torch
pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高級用法

對於指令微調模型，需要先使用聊天模板處理輸入，然後傳遞給pipeline：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

在單個GPU上運行模型

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 詳細文檔

模型數據

訓練數據集

這些模型在包含約11萬億令牌的多樣化數據集上進行訓練，訓練數據的知識截止日期為2024年6月。主要組成部分包括：

網頁文檔：多樣化的網頁文本集合，確保模型接觸到廣泛的語言風格、主題和詞彙，訓練數據集包含超過140種語言的內容。
代碼：讓模型接觸代碼有助於學習編程語言的語法和模式，提高生成代碼和理解代碼相關問題的能力。
數學：在數學文本上進行訓練有助於模型學習邏輯推理、符號表示和解決數學查詢。
圖像：廣泛的圖像數據使模型能夠執行圖像分析和視覺數據提取任務。
音頻：多樣化的聲音樣本使模型能夠識別語音、從錄音中轉錄文本並識別音頻數據中的信息。

數據預處理

訓練數據應用了以下關鍵的數據清理和過濾方法：

CSAM過濾：在數據準備過程的多個階段應用嚴格的CSAM（兒童性虐待材料）過濾，確保排除有害和非法內容。
敏感數據過濾：作為使Gemma預訓練模型安全可靠的一部分，使用自動化技術從訓練集中過濾出某些個人信息和其他敏感數據。
其他方法：根據我們的政策進行內容質量和安全性過濾。

實現信息

硬件

Gemma使用張量處理單元 (TPU)硬件（TPUv4p、TPUv5p和TPUv5e）進行訓練。訓練生成式模型需要大量的計算能力，TPU專為機器學習中常見的矩陣運算而設計，具有以下優勢：

性能：TPU專門用於處理訓練生成式模型涉及的大量計算，與CPU相比可以顯著加速訓練。
內存：TPU通常配備大量高帶寬內存，允許在訓練期間處理大型模型和批量大小，有助於提高模型質量。
可擴展性：TPU Pod（大型TPU集群）為處理大型基礎模型的不斷增長的複雜性提供了可擴展的解決方案，可以跨多個TPU設備分佈訓練以實現更快、更高效的處理。
成本效益：在許多情況下，與基於CPU的基礎設施相比，TPU可以為訓練大型模型提供更具成本效益的解決方案，特別是考慮到更快的訓練節省的時間和資源。

軟件

訓練使用JAX和ML Pathways進行。JAX允許研究人員利用最新一代的硬件（包括TPU）進行更快、更高效的大型模型訓練。ML Pathways是Google構建能夠跨多個任務進行泛化的人工智能系統的最新努力，特別適用於基礎模型，包括此類大型語言模型。

評估

基準測試結果

這些模型在全精度（float32）下針對大量不同的數據集和指標進行評估，以涵蓋內容生成的不同方面。標記為IT的評估結果是針對指令微調模型，標記為PT的評估結果是針對預訓練模型。

推理與事實性

基準測試	指標	n-shot	E2B PT	E4B PT
HellaSwag	準確率	10-shot	72.2	78.6
BoolQ	準確率	0-shot	76.4	81.6
PIQA	準確率	0-shot	78.9	81.0
SocialIQA	準確率	0-shot	48.8	50.0
TriviaQA	準確率	5-shot	60.8	70.2
Natural Questions	準確率	5-shot	15.5	20.9
ARC-c	準確率	25-shot	51.7	61.6
ARC-e	準確率	0-shot	75.8	81.6
WinoGrande	準確率	5-shot	66.8	71.7
BIG-Bench Hard	準確率	few-shot	44.3	52.9
DROP	令牌F1分數	1-shot	53.9	60.8

多語言

基準測試	指標	n-shot	E2B IT	E4B IT
MGSM	準確率	0-shot	53.1	60.7
WMT24++ (ChrF)	字符級F分數	0-shot	42.7	50.1
Include	準確率	0-shot	38.6	57.2
MMLU (ProX)	準確率	0-shot	8.1	19.9
OpenAI MMLU	準確率	0-shot	22.3	35.6
Global-MMLU	準確率	0-shot	55.1	60.3
ECLeKTic	ECLeKTic分數	0-shot	2.5	1.9

STEM與代碼

基準測試	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	寬鬆準確率/準確率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	準確率	0-shot	6.7	11.6

其他基準測試

基準測試	指標	n-shot	E2B IT	E4B IT
MMLU	準確率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	準確率	0-shot	27.7	37.7
Global-MMLU-Lite	準確率	0-shot	59.0	64.5
MMLU (Pro)	準確率	0-shot	40.5	50.6

倫理與安全

評估方法

我們的評估方法包括結構化評估和對相關內容政策的內部紅隊測試。紅隊測試由多個不同的團隊進行，每個團隊有不同的目標和人工評估指標。這些模型針對與倫理和安全相關的多個不同類別進行評估，包括：

兒童安全：評估文本到文本和圖像到文本的提示，涵蓋兒童安全政策，包括兒童性虐待和剝削。
內容安全：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括騷擾、暴力和血腥內容以及仇恨言論。
代表性危害：評估文本到文本和圖像到文本的提示，涵蓋安全政策，包括偏見、刻板印象和有害關聯或不準確信息。

除了開發階段的評估，我們還進行“保證評估”，這是我們獨立的內部評估，用於責任治理決策。這些評估與模型開發團隊分開進行，以提供決策依據。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}