Gemma 3n-E2B-it开源多模态模型 - 免费部署，低资源设备也能轻松使用

首页

Gemma 3n E2B It Unsloth Bnb 4bit

由 unsloth 开发

Gemma 3n-E2B-it 是 Google 推出的轻量级开源多模态模型，基于与 Gemini 相同技术构建，专为低资源设备优化。

图像生成文本

Transformers

英语#多模态处理 #低资源优化 #多语言支持

下载量 4,914

发布时间 : 6/26/2025

模型简介

一款支持文本、图像、视频和音频输入的多模态模型，能生成高质量文本输出，适用于多种语言和任务。

模型特点

多模态支持

可同时处理文本、图像、视频和音频输入，实现跨模态理解

低资源优化

采用选择性参数激活技术，在2B/4B参数规模下高效运行

多语言能力

使用140+种语言数据训练，具备跨语言处理能力

开放权重

提供预训练和指令调整版本的开放权重

模型能力

文本生成

图像内容分析

音频转录

多语言翻译

代码生成

数学推理

视觉问答

使用案例

内容生成

图像描述生成

根据输入图像生成详细描述

示例输出准确识别图像中的蜜蜂和花朵细节

智能助手

多模态对话

结合图像和文本输入进行自然对话

能正确回答关于图像内容的复杂问题

教育

STEM问题解答

解决数学和科学问题

在ARC-c基准测试达到61.6准确率

🚀 Gemma 3n-E2B-it 模型使用指南

Gemma 3n-E2B-it 是一款来自 Google 的轻量级、先进的开源模型，基于与 Gemini 模型相同的研究和技术构建。它专为在低资源设备上高效运行而设计，能够处理多模态输入，并生成文本输出。

了解更多

运行与微调指南：阅读我们的指南，学习如何正确运行和微调 Gemma 3n。
查看所有版本：查看我们的集合，获取包括 GGUF、4 位和 16 位格式在内的所有 Gemma 3n 版本。
Unsloth Dynamic 2.0：Unsloth Dynamic 2.0 在与其他量化方法的对比中实现了最优的准确率和性能。

社区链接

✨ 主要特性

多模态输入支持：能够处理文本、图像、视频和音频输入，并生成文本输出。
低资源设备友好：设计用于在低资源设备上高效运行。
开放权重：预训练和指令调整变体的权重开放。
多语言支持：使用超过 140 种口语语言的数据进行训练。

📦 安装指南

Gemma 3n 从 transformers 4.53.0 版本开始支持。首先，安装 Transformers 库：

$ pip install -U transformers

💻 使用示例

基础用法

使用 pipeline API 进行推理：

from transformers import pipeline
import torch
pipe = pipeline(
    "image-text-to-text",
    model="google/gemma-3n-e4b-it",
    device="cuda",
    torch_dtype=torch.bfloat16,
)

高级用法

使用指令调整模型时，需要先使用聊天模板处理输入，然后将其传递给管道：

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    }
]
output = pipe(text=messages, max_new_tokens=200)
print(output[0]["generated_text"][-1]["content"])
# Okay, let's take a look!
# Based on the image, the animal on the candy is a **turtle**.
# You can see the shell shape and the head and legs.

在单个 GPU 上运行模型

from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e4b-it"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]
inputs = processor.apply_chat_template(
    messages,
    add_generation_prompt=True,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
).to(model.device)
input_len = inputs["input_ids"].shape[-1]
with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# **Overall Impression:** The image is a close-up shot of a vibrant garden scene,
# focusing on a cluster of pink cosmos flowers and a busy bumblebee.
# It has a slightly soft, natural feel, likely captured in daylight.

📚 详细文档

模型信息

描述

Gemma 是 Google 推出的一系列轻量级、先进的开源模型，基于与 Gemini 模型相同的研究和技术构建。Gemma 3n 模型旨在在低资源设备上高效运行，能够处理多模态输入，包括文本、图像、视频和音频，并生成文本输出。这些模型的预训练和指令调整变体的权重开放，使用超过 140 种口语语言的数据进行训练。

Gemma 3n 模型使用选择性参数激活技术来降低资源需求，该技术允许模型以 2B 和 4B 参数的有效规模运行，低于其包含的总参数数量。有关 Gemma 3n 高效参数管理技术的更多信息，请参阅 Gemma 3n 页面。

输入和输出

输入：
- 文本字符串，如问题、提示或要总结的文档。
- 图像，归一化为 256x256、512x512 或 768x768 分辨率，并编码为每个 256 个令牌。
- 音频数据，从单声道编码为每秒 6.25 个令牌。
- 总输入上下文为 32K 令牌。
输出：
- 针对输入生成的文本，如问题的答案、图像内容的分析或文档的总结。
- 总输出长度最多为 32K 令牌，减去请求输入令牌。

模型数据

训练数据集

这些模型在包含各种来源的数据集上进行训练，总计约 11 万亿个令牌。训练数据的知识截止日期为 2024 年 6 月。主要组成部分如下：

网页文档：多样化的网页文本集合，确保模型接触到广泛的语言风格、主题和词汇。训练数据集包含超过 140 种语言的内容。
代码：让模型接触代码有助于学习编程语言的语法和模式，提高生成代码和理解代码相关问题的能力。
数学：在数学文本上进行训练有助于模型学习逻辑推理、符号表示和处理数学查询。
图像：广泛的图像使模型能够执行图像分析和视觉数据提取任务。
音频：多样化的声音样本使模型能够识别语音、从录音中转录文本并识别音频数据中的信息。

数据预处理

对训练数据应用的关键数据清理和过滤方法如下：

CSAM 过滤：在数据准备过程的多个阶段应用严格的 CSAM（儿童性虐待材料）过滤，以确保排除有害和非法内容。
敏感数据过滤：作为使 Gemma 预训练模型安全可靠的一部分，使用自动化技术从训练集中过滤出某些个人信息和其他敏感数据。
其他方法：根据我们的政策进行基于内容质量和安全性的过滤。

实现信息

硬件

Gemma 使用张量处理单元 (TPU) 硬件（TPUv4p、TPUv5p 和 TPUv5e）进行训练。训练生成式模型需要大量的计算能力，TPU 专门为机器学习中常见的矩阵运算而设计，在该领域具有以下优势：

性能：TPU 专门用于处理训练生成式模型涉及的大量计算，与 CPU 相比，可以显著加速训练。
内存：TPU 通常配备大量高带宽内存，允许在训练期间处理大型模型和批量大小，这有助于提高模型质量。
可扩展性：TPU Pod（大型 TPU 集群）为处理大型基础模型日益增长的复杂性提供了可扩展的解决方案。可以在多个 TPU 设备上分布训练，以实现更快、更高效的处理。
成本效益：在许多情况下，与基于 CPU 的基础设施相比，TPU 可以为训练大型模型提供更具成本效益的解决方案，特别是考虑到更快的训练节省的时间和资源。

软件

使用 JAX 和 ML Pathways 进行训练。JAX 允许研究人员利用最新一代的硬件（包括 TPU）进行更快、更高效的大型模型训练。ML Pathways 是 Google 构建能够跨多个任务进行泛化的人工智能系统的最新努力，特别适用于基础模型，包括此类大型语言模型。

评估

基准测试结果

这些模型在全精度（float32）下针对大量不同的数据集和指标进行评估，以涵盖内容生成的不同方面。标记为 IT 的评估结果是针对指令调整模型的，标记为 PT 的评估结果是针对预训练模型的。

推理和事实性

基准测试	指标	n-shot	E2B PT	E4B PT
HellaSwag	准确率	10-shot	72.2	78.6
BoolQ	准确率	0-shot	76.4	81.6
PIQA	准确率	0-shot	78.9	81.0
SocialIQA	准确率	0-shot	48.8	50.0
TriviaQA	准确率	5-shot	60.8	70.2
Natural Questions	准确率	5-shot	15.5	20.9
ARC-c	准确率	25-shot	51.7	61.6
ARC-e	准确率	0-shot	75.8	81.6
WinoGrande	准确率	5-shot	66.8	71.7
BIG-Bench Hard	准确率	few-shot	44.3	52.9
DROP	令牌 F1 分数	1-shot	53.9	60.8

多语言

基准测试	指标	n-shot	E2B IT	E4B IT
MGSM	准确率	0-shot	53.1	60.7
WMT24++ (ChrF)	字符级 F 分数	0-shot	42.7	50.1
Include	准确率	0-shot	38.6	57.2
MMLU (ProX)	准确率	0-shot	8.1	19.9
OpenAI MMLU	准确率	0-shot	22.3	35.6
Global-MMLU	准确率	0-shot	55.1	60.3
ECLeKTic	ECLeKTic 分数	0-shot	2.5	1.9

STEM 和代码

基准测试	指标	n-shot	E2B IT	E4B IT
GPQA Diamond	宽松准确率/准确率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	准确率	0-shot	6.7	11.6

其他基准测试

基准测试	指标	n-shot	E2B IT	E4B IT
MMLU	准确率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	准确率	0-shot	27.7	37.7
Global-MMLU-Lite	准确率	0-shot	59.0	64.5
MMLU (Pro)	准确率	0-shot	40.5	50.6

伦理和安全

评估方法

评估方法包括结构化评估和相关内容政策的内部红队测试。红队测试由多个不同的团队进行，每个团队有不同的目标和人类评估指标。这些模型针对与伦理和安全相关的多个不同类别进行评估，包括：

儿童安全：评估文本到文本和图像到文本提示，涵盖儿童安全政策，包括儿童性虐待和剥削。
内容安全：评估文本到文本和图像到文本提示，涵盖安全政策，包括骚扰、暴力和血腥内容以及仇恨言论。
代表性危害：评估文本到文本和图像到文本提示，涵盖安全政策，包括偏见、刻板印象和有害关联或不准确信息。

除了开发阶段的评估外，还进行“保证评估”，这是为责任治理决策进行的“独立”内部评估，与模型开发团队分开进行，为发布决策提供信息。

🔧 技术细节

硬件

使用张量处理单元 (TPU) 硬件（TPUv4p、TPUv5p 和 TPUv5e）进行训练，TPU 专为机器学习中常见的矩阵运算设计，具有高性能、大内存、可扩展性和成本效益等优势。

软件

使用 JAX 和 ML Pathways 进行训练，JAX 允许利用最新硬件进行高效训练，ML Pathways 适用于构建跨多个任务进行泛化的人工智能系统。

📄 许可证

本模型使用 gemma 许可证。

引用

@article{gemma_3n_2025,
    title={Gemma 3n},
    url={https://ai.google.dev/gemma/docs/gemma-3n},
    publisher={Google DeepMind},
    author={Gemma Team},
    year={2025}
}