Gemma 3n-E4B-it-4bit-MLX開源多模態模型 - 支持多形式輸入，適配低資源設備

首頁

Gemma 3n E4B It 4bit MLX

由NexaAI開發

Gemma 3n 是基於 Google Gemma 模型的多模態輕量級開源模型，支持文本、圖像、視頻和音頻輸入，專為低資源設備優化。

多模態融合

Transformers

#多模態處理 #低資源優化 #多語言支持

下載量 122

發布時間 : 7/13/2025

模型概述

Gemma 3n 是 Google 推出的輕量級開源模型，採用與 Gemini 相同的技術，支持多模態輸入和文本輸出，適用於低資源設備。

模型特點

多模態支持

能夠處理文本、圖像、音頻和視頻輸入，並生成文本輸出。

低資源優化

採用選擇性參數激活技術，降低資源需求，適合在低資源設備上運行。

高效參數管理

以 20 億和 40 億參數的有效規模運行，低於總參數數量。

多語言支持

使用超過 140 種口語語言的數據進行訓練，具備強大的多語言處理能力。

模型能力

文本生成

圖像內容分析

音頻數據處理

視頻內容理解

多語言文本處理

使用案例

內容生成

文檔摘要

輸入長文檔，生成簡潔的摘要。

高效生成準確且連貫的摘要。

問題回答

輸入問題，生成詳細的答案。

在多個基準測試中表現優異。

多模態分析

圖像描述生成

輸入圖像，生成詳細的文字描述。

支持多種分辨率，生成高質量描述。

音頻轉錄

輸入音頻數據，生成文字轉錄。

每秒編碼為 6.25 個標記，單聲道支持。

🚀 NexaAI/gemma-3n-E4B-it-4bit-MLX

本項目基於 Google 的 Gemma 模型，支持多模態輸入，能在低資源設備上高效運行，可處理文本、圖像、視頻和音頻輸入並生成文本輸出。

🚀 快速開始

安裝 nexa-sdk 後即可直接運行。在 nexa-sdk 命令行界面中執行以下命令：

NexaAI/gemma-3n-E4B-it-4bit-MLX

✨ 主要特性

模型概述

Gemma 是 Google 推出的一系列輕量級、先進的開源模型，其使用了與 Gemini 模型相同的研究和技術。Gemma 3n 模型專為在低資源設備上高效運行而設計，支持多模態輸入，能夠處理文本、圖像、視頻和音頻輸入，並生成文本輸出。該模型的預訓練和指令調優變體的權重均為開源，且使用了超過 140 種口語語言的數據進行訓練。

Gemma 3n 模型採用了選擇性參數激活技術，以降低資源需求。這種技術使模型能夠以 20 億和 40 億參數的有效規模運行，低於其包含的總參數數量。有關 Gemma 3n 高效參數管理技術的更多信息，請參閱 Gemma 3n 頁面。

輸入與輸出

輸入：
- 文本字符串，如問題、提示或待總結的文檔。
- 圖像，歸一化為 256x256、512x512 或 768x768 分辨率，並編碼為每個 256 個標記。
- 音頻數據，每秒編碼為 6.25 個標記，單聲道。
- 總輸入上下文為 32000 個標記。
輸出：
- 針對輸入生成的文本，如問題的答案、圖像內容的分析或文檔的摘要。
- 總輸出長度最多為 32000 個標記，減去請求輸入的標記。

📚 詳細文檔

基準測試結果

這些模型在全精度（float32）下針對大量不同的數據集和指標進行了評估，以涵蓋內容生成的不同方面。標記為 IT 的評估結果是針對指令調優模型的，標記為 PT 的評估結果是針對預訓練模型的。

推理與事實性

基準測試	指標	n-shot	E2B PT	E4B PT
HellaSwag	準確率	10-shot	72.2	78.6
BoolQ	準確率	0-shot	76.4	81.6
PIQA	準確率	0-shot	78.9	81.0
SocialIQA	準確率	0-shot	48.8	50.0
TriviaQA	準確率	5-shot	60.8	70.2
Natural Questions	準確率	5-shot	15.5	20.9
ARC-c	準確率	25-shot	51.7	61.6
ARC-e	準確率	0-shot	75.8	81.6
WinoGrande	準確率	5-shot	66.8	71.7
BIG-Bench Hard	準確率	few-shot	44.3	52.9
DROP	標記 F1 分數	1-shot	53.9	60.8

多語言能力

基準測試	指標	n-shot	E2B IT	E4B IT
MGSM	準確率	0-shot	53.1	60.7
WMT24++ (ChrF)	字符級 F 分數	0-shot	42.7	50.1
Include	準確率	0-shot	38.6	57.2
MMLU (ProX)	準確率	0-shot	8.1	19.9
OpenAI MMLU	準確率	0-shot	22.3	35.6
Global-MMLU	準確率	0-shot	55.1	60.3
ECLeKTic	ECLeKTic 分數	0-shot	2.5	1.9

STEM 和代碼能力

基準測試	指標	n-shot	E2B IT	E4B IT
GPQA Diamond	寬鬆準確率/準確率	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	準確率	0-shot	6.7	11.6

其他基準測試

基準測試	指標	n-shot	E2B IT	E4B IT
MMLU	準確率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	準確率	0-shot	27.7	37.7
Global-MMLU-Lite	準確率	0-shot	59.0	64.5
MMLU (Pro)	準確率	0-shot	40.5	50.6