Gemma 3n - E4B - it - 4bit - MLXオープンソース多モーダルモデル - 多様な形式の入力に対応し、低リソースデバイスに適合

ホーム

Gemma 3n E4B It 4bit MLX

NexaAIによって開発

Gemma 3nはGoogle Gemmaモデルをベースにしたマルチモーダル軽量オープンソースモデルで、テキスト、画像、ビデオ、音声入力に対応し、低リソースデバイス向けに最適化されています。

マルチモーダル融合

Transformers

#マルチモーダル処理 #低リソース最適化 #多言語対応

ダウンロード数 122

リリース時間 : 7/13/2025

モデル概要

Gemma 3nはGoogleが提供する軽量オープンソースモデルで、Geminiと同じ技術を採用し、マルチモーダル入力とテキスト出力に対応し、低リソースデバイスに適しています。

モデル特徴

マルチモーダル対応

テキスト、画像、音声、ビデオ入力を処理し、テキスト出力を生成できます。

低リソース最適化

選択的パラメータ活性化技術を採用し、リソース要件を削減し、低リソースデバイスでの実行に適しています。

効率的なパラメータ管理

20億と40億のパラメータの有効規模で動作し、総パラメータ数より少なくなっています。

多言語対応

140種以上の口語言語のデータを使用して学習され、強力な多言語処理能力を備えています。

モデル能力

テキスト生成

画像内容分析

音声データ処理

ビデオ内容理解

多言語テキスト処理

使用事例

コンテンツ生成

文書要約

長い文書を入力し、簡潔な要約を生成します。

正確で首尾一貫した要約を効率的に生成します。

質問回答

質問を入力し、詳細な回答を生成します。

複数のベンチマークテストで優れた性能を発揮します。

マルチモーダル分析

画像説明生成

画像を入力し、詳細な文字説明を生成します。

複数の解像度に対応し、高品質な説明を生成します。

音声文字起こし

音声データを入力し、文字起こしを生成します。

1秒あたり6.25個のトークンにエンコードされ、モノラル対応です。

🚀 NexaAI/gemma-3n-E4B-it-4bit-MLX

Gemma-3n-E4B-it-4bit-MLXは、Googleが開発したGemmaモデルファミリーの一つです。低リソースデバイスでの効率的な実行が可能で、多様なモーダル入力（テキスト、画像、ビデオ、音声）を扱い、テキスト出力を生成することができます。

🚀 クイックスタート

nexa-sdkをインストールして、直接実行します。 nexa-sdk CLIでは、以下のコマンドを実行します。

NexaAI/gemma-3n-E4B-it-4bit-MLX

✨ 主な機能

概要

入力と出力の概要説明と簡単な定義を提供します。

説明

Gemmaは、Googleが開発した軽量で最先端のオープンモデルファミリーです。Geminiモデルを作成するために使用された同じ研究と技術に基づいて構築されています。Gemma 3nモデルは、低リソースデバイスでの効率的な実行を目的として設計されています。テキスト、画像、ビデオ、音声などのマルチモーダル入力を処理し、テキスト出力を生成することができます。事前学習と命令微調整のバリアントにはオープンな重みがあり、140以上の話し言葉でデータが学習されています。

Gemma 3nモデルは、選択的パラメータ活性化技術を使用してリソース要件を削減しています。この技術により、モデルは含まれる総パラメータ数よりも少ない2Bと4Bのパラメータで効果的に動作することができます。Gemma 3nの効率的なパラメータ管理技術の詳細については、Gemma 3nページを参照してください。

入力と出力

入力:
- 質問、プロンプト、要約するドキュメントなどのテキスト文字列
- 256x256、512x512、または768x768の解像度に正規化され、それぞれ256トークンにエンコードされた画像
- 単一チャネルから1秒あたり6.25トークンにエンコードされた音声データ
- 最大32Kトークンの入力コンテキスト
出力:
- 質問への回答、画像内容の分析、ドキュメントの要約など、入力に対する生成テキスト
- リクエスト入力トークンを差し引いた最大32Kトークンの出力長

📚 詳細ドキュメント

ベンチマーク結果

これらのモデルは、コンテンツ生成のさまざまな側面をカバーするために、多数の異なるデータセットとメトリクスに対して全精度（float32）で評価されました。評価結果にITとマークされているのは命令微調整モデル、PTとマークされているのは事前学習モデルです。

推論と事実性

ベンチマーク	メトリクス	n-shot	E2B PT	E4B PT
HellaSwag	正解率	10-shot	72.2	78.6
BoolQ	正解率	0-shot	76.4	81.6
PIQA	正解率	0-shot	78.9	81.0
SocialIQA	正解率	0-shot	48.8	50.0
TriviaQA	正解率	5-shot	60.8	70.2
Natural Questions	正解率	5-shot	15.5	20.9
ARC-c	正解率	25-shot	51.7	61.6
ARC-e	正解率	0-shot	75.8	81.6
WinoGrande	正解率	5-shot	66.8	71.7
BIG-Bench Hard	正解率	few-shot	44.3	52.9
DROP	トークンF1スコア	1-shot	53.9	60.8

多言語

ベンチマーク	メトリクス	n-shot	E2B IT	E4B IT
MGSM	正解率	0-shot	53.1	60.7
WMT24++ (ChrF)	文字レベルのFスコア	0-shot	42.7	50.1
Include	正解率	0-shot	38.6	57.2
MMLU (ProX)	正解率	0-shot	8.1	19.9
OpenAI MMLU	正解率	0-shot	22.3	35.6
Global-MMLU	正解率	0-shot	55.1	60.3
ECLeKTic	ECLeKTicスコア	0-shot	2.5	1.9

STEMとコード

ベンチマーク	メトリクス	n-shot	E2B IT	E4B IT
GPQA Diamond	RelaxedAccuracy/accuracy	0-shot	24.8	23.7
LiveCodeBench v5	pass@1	0-shot	18.6	25.7
Codegolf v2.2	pass@1	0-shot	11.0	16.8
AIME 2025	正解率	0-shot	6.7	11.6

追加のベンチマーク

ベンチマーク	メトリクス	n-shot	E2B IT	E4B IT
MMLU	正解率	0-shot	60.1	64.9
MBPP	pass@1	3-shot	56.6	63.6
HumanEval	pass@1	0-shot	66.5	75.0
LiveCodeBench	pass@1	0-shot	13.2	13.2
HiddenMath	正解率	0-shot	27.7	37.7
Global-MMLU-Lite	正解率	0-shot	59.0	64.5
MMLU (Pro)	正解率	0-shot	40.5	50.6