Gemma 3n E2B
Gemma 3n是谷歌推出的輕量級、最先進的開源模型家族,支持多模態輸入和輸出。
下載量 206
發布時間 : 6/12/2025
模型概述
Gemma 3n是基於與Gemini模型相同的研究和技術構建的輕量級開源模型,支持文本、音頻和視覺(圖像和視頻)輸入,適用於多種任務和數據格式。
模型特點
多模態支持
能夠處理文本、圖像、視頻和音頻輸入,並生成文本輸出。
架構創新
使用MatFormer架構,允許在E4B模型中嵌套子模型。
資源高效
通過將低利用率矩陣從加速器中卸載,該模型的內存佔用與傳統的2B模型相當。
模型能力
文本生成
圖像分析
視頻分析
音頻分析
多模態推理
使用案例
內容創作
圖像描述生成
根據輸入的圖像生成詳細的文本描述。
生成準確且詳細的圖像描述。
研究和教育
多模態學習
利用多模態輸入進行教育和研究任務。
提升學習和研究的效率。
🚀 Gemma 3n模型介紹
Gemma 3n是谷歌推出的輕量級、最先進的開源模型家族,基於與Gemini模型相同的研究和技術構建。該模型支持文本、音頻和視覺(圖像和視頻)輸入,適用於多種任務和數據格式。
🚀 快速開始
本倉庫對應Gemma 3n E2B的發佈版本,可與Hugging Face的transformers
庫配合使用,支持文本、音頻和視覺(圖像和視頻)輸入。
✨ 主要特性
- 多模態支持:能夠處理文本、圖像、視頻和音頻輸入,並生成文本輸出。
- 架構創新:有基於有效參數的兩種尺寸可供選擇;使用MatFormer架構,允許在E4B模型中嵌套子模型。
- 資源高效:通過將低利用率矩陣從加速器中卸載,該模型的內存佔用與傳統的2B模型相當。
📦 安裝指南
首先,安裝transformers
庫。Gemma 3n從transformers
4.53.0版本開始支持。
$ pip install -U transformers
💻 使用示例
基礎用法
使用pipeline
API進行推理:
from transformers import pipeline
import torch
pipe = pipeline(
"image-text-to-text",
model="google/gemma-3n-e2b",
device="cuda",
torch_dtype=torch.bfloat16,
)
output = pipe(
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
text="<image_soft_token> in this image, there is"
)
print(output)
# [{'input_text': '<image_soft_token> in this image, there is',
# 'generated_text': '<image_soft_token> in this image, there is a beautiful flower and a bee is sucking nectar and pollen from the flower.'}]
高級用法
在單個GPU上運行模型:
from transformers import AutoProcessor, Gemma3nForConditionalGeneration
from PIL import Image
import requests
import torch
model_id = "google/gemma-3n-e2b"
model = Gemma3nForConditionalGeneration.from_pretrained(model_id, device="cuda", torch_dtype=torch.bfloat16,).eval()
processor = AutoProcessor.from_pretrained(model_id)
url = "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
image = Image.open(requests.get(url, stream=True).raw)
prompt = "<image_soft_token> in this image, there is"
model_inputs = processor(text=prompt, images=image, return_tensors="pt").to(model.device)
input_len = model_inputs["input_ids"].shape[-1]
with torch.inference_mode():
generation = model.generate(**model_inputs, max_new_tokens=10)
generation = generation[0][input_len:]
decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)
# one picture of flowers which shows that the flower is
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | Gemma 3n是谷歌推出的輕量級、最先進的開源模型家族,支持多模態輸入和輸出。 |
訓練數據 | 該模型在包含約11萬億個標記的數據集上進行訓練,知識截止日期為2024年6月。訓練數據包括網頁文檔、代碼、數學、圖像和音頻等多種來源。 |
模型數據
- 訓練數據集:這些模型在包含多種來源的數據集上進行訓練,總計約11萬億個標記。訓練數據的知識截止日期為2024年6月,包括網頁文檔、代碼、數學、圖像和音頻等。
- 數據預處理:在訓練數據上應用了嚴格的CSAM過濾、敏感數據過濾和其他基於內容質量和安全的過濾方法。
實現信息
- 硬件:Gemma使用張量處理單元(TPU)硬件(TPUv4p、TPUv5p和TPUv5e)進行訓練。
- 軟件:使用JAX和ML Pathways進行訓練。
評估
這些模型在全精度(float32)下針對大量不同的數據集和指標進行了評估,涵蓋了內容生成的不同方面。評估結果分為預訓練模型(PT)和指令調優模型(IT)。
推理和事實性
基準測試 | 指標 | n-shot | E2B PT | E4B PT |
---|---|---|---|---|
HellaSwag | 準確率 | 10-shot | 72.2 | 78.6 |
BoolQ | 準確率 | 0-shot | 76.4 | 81.6 |
PIQA | 準確率 | 0-shot | 78.9 | 81.0 |
SocialIQA | 準確率 | 0-shot | 48.8 | 50.0 |
TriviaQA | 準確率 | 5-shot | 60.8 | 70.2 |
Natural Questions | 準確率 | 5-shot | 15.5 | 20.9 |
ARC-c | 準確率 | 25-shot | 51.7 | 61.6 |
ARC-e | 準確率 | 0-shot | 75.8 | 81.6 |
WinoGrande | 準確率 | 5-shot | 66.8 | 71.7 |
BIG-Bench Hard | 準確率 | few-shot | 44.3 | 52.9 |
DROP | 標記F1分數 | 1-shot | 53.9 | 60.8 |
多語言
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MGSM | 準確率 | 0-shot | 53.1 | 60.7 |
WMT24++ (ChrF) | 字符級F分數 | 0-shot | 42.7 | 50.1 |
Include | 準確率 | 0-shot | 38.6 | 57.2 |
MMLU (ProX) | 準確率 | 0-shot | 8.1 | 19.9 |
OpenAI MMLU | 準確率 | 0-shot | 22.3 | 35.6 |
Global-MMLU | 準確率 | 0-shot | 55.1 | 60.3 |
ECLeKTic | ECLeKTic分數 | 0-shot | 2.5 | 1.9 |
STEM和代碼
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
GPQA Diamond | 寬鬆準確率/準確率 | 0-shot | 24.8 | 23.7 |
LiveCodeBench v5 | pass@1 | 0-shot | 18.6 | 25.7 |
Codegolf v2.2 | pass@1 | 0-shot | 11.0 | 16.8 |
AIME 2025 | 準確率 | 0-shot | 6.7 | 11.6 |
其他基準測試
基準測試 | 指標 | n-shot | E2B IT | E4B IT |
---|---|---|---|---|
MMLU | 準確率 | 0-shot | 60.1 | 64.9 |
MBPP | pass@1 | 3-shot | 56.6 | 63.6 |
HumanEval | pass@1 | 0-shot | 66.5 | 75.0 |
LiveCodeBench | pass@1 | 0-shot | 13.2 | 13.2 |
HiddenMath | 準確率 | 0-shot | 27.7 | 37.7 |
Global-MMLU-Lite | 準確率 | 0-shot | 59.0 | 64.5 |
MMLU (Pro) | 準確率 | 0-shot | 40.5 | 50.6 |
倫理和安全
- 評估方法:包括結構化評估和內部紅隊測試,評估內容涵蓋兒童安全、內容安全和代表性危害等方面。
- 評估結果:在所有安全測試領域,模型在兒童安全、內容安全和代表性危害等類別中表現出安全水平,相對於之前的Gemma模型有顯著改進。
使用和限制
- 預期用途:該模型可用於內容創作和通信、研究和教育等多個領域。
- 限制:模型的性能受訓練數據的質量和多樣性、上下文和任務複雜度等因素的影響。
🔧 技術細節
瞭解更多關於這些技術的信息,請參閱技術博客文章和Gemma文檔。
📄 許可證
許可證為Gemma。
引用
@article{gemma_3n_2025,
title={Gemma 3n},
url={https://ai.google.dev/gemma/docs/gemma-3n},
publisher={Google DeepMind},
author={Gemma Team},
year={2025}
}
重要提示
⚠️ 重要提示
本倉庫對應Gemma 3n E2B的發佈版本,需與Hugging Face的
transformers
庫配合使用,支持文本、音頻和視覺(圖像和視頻)輸入。
💡 使用建議
要在Hugging Face上訪問Gemma,您需要審查並同意Google的使用許可。請確保您已登錄Hugging Face並點擊下方按鈕,請求將立即處理。
Clip Vit Large Patch14
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習將圖像和文本映射到共享的嵌入空間,支持零樣本圖像分類
圖像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI開發的多模態模型,能夠理解圖像和文本之間的關係,支持零樣本圖像分類任務。
圖像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺語言模型,採用改進的sigmoid損失函數,優化了圖像-文本匹配任務。
圖像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI開發的多模態模型,通過對比學習將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類能力。
圖像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一個先進的視覺-語言預訓練模型,擅長圖像描述生成任務,支持條件式和非條件式文本生成。
圖像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成任務,支持條件式和無條件式圖像描述生成。
圖像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一個基於Open X-Embodiment數據集訓練的開源視覺-語言-動作模型,能夠根據語言指令和攝像頭圖像生成機器人動作。
圖像生成文本
Transformers 英語

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款開源多模態聊天機器人,基於 LLaMA/Vicuna 微調,支持圖文交互。
圖像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
這是一個基於ViT和GPT2架構的圖像描述生成模型,能夠為輸入圖像生成自然語言描述。
圖像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一個視覺語言模型,結合了圖像編碼器和大型語言模型,用於圖像到文本的生成任務。
圖像生成文本
Transformers 英語

B
Salesforce
867.78k
359
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98