G

Gemma 3n E4B It

googleによって開発
Gemma 3nはGoogleが開発した軽量で最先端のオープンソースのマルチモーダルモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築され、テキスト、オーディオ、ビジュアル入力をサポートします。
ダウンロード数 1,690
リリース時間 : 6/3/2025

モデル概要

Gemma 3nはマルチモーダルモデルで、テキスト、オーディオ、画像、ビデオ入力を処理でき、自動音声認識、自動音声翻訳などの様々なタスクに適しています。

モデル特徴

マルチモーダル入力サポート
テキスト、オーディオ、画像、ビデオ入力を同時に処理し、クロスモーダルの理解と生成を実現します。
効率的なリソース利用
選択的パラメータ活性化技術を採用し、4Bの有効パラメータで高性能を実現し、メモリ使用量は従来の4Bモデルと同等です。
広範な学習データ
約11兆のトークンを含む多様なデータセットで学習され、ウェブドキュメント、コード、数学、画像、オーディオが含まれます。
アーキテクチャの革新
MatFormerアーキテクチャを採用し、E4Bモデルにサブモデルをネストでき、モデルの効率を向上させます。

モデル能力

テキスト生成
画像内容分析
音声認識
多言語翻訳
コード生成
数学的推論
ビジュアル質問応答

使用事例

コンテンツ作成とコミュニケーション
創造的なテキスト生成
詩、脚本、マーケティングコピーなどの創造的なテキスト形式を生成します。
テーマとスタイルに合った多様なテキストコンテンツを生成できます。
画像記述生成
入力された画像に基づいて詳細な記述を生成します。
画像内の物体、シーン、活動を正確に識別できます。
研究と教育
NLP研究
自然言語処理と生成モデルの研究の基礎モデルとして使用します。
様々なNLPタスクの実験と開発をサポートします。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase