G

Gemma 3n E4B It

由google開發
Gemma 3n是Google推出的輕量級、最先進的開源多模態模型家族,基於與Gemini模型相同的研究和技術構建,支持文本、音頻和視覺輸入。
下載量 1,690
發布時間 : 6/3/2025

模型概述

Gemma 3n是一個多模態模型,能夠處理文本、音頻、圖像和視頻輸入,適用於自動語音識別、自動語音翻譯等多種任務。

模型特點

多模態輸入支持
能夠同時處理文本、音頻、圖像和視頻輸入,實現跨模態理解與生成。
高效資源利用
採用選擇性參數激活技術,以4B有效參數實現高性能,內存佔用與傳統4B模型相當。
廣泛訓練數據
在包含約11萬億標記的多樣化數據集上訓練,涵蓋網絡文檔、代碼、數學、圖像和音頻。
架構創新
採用MatFormer架構,允許在E4B模型中嵌套子模型,提升模型效率。

模型能力

文本生成
圖像內容分析
語音識別
多語言翻譯
代碼生成
數學推理
視覺問答

使用案例

內容創作和通信
創意文本生成
生成詩歌、劇本、營銷文案等創意文本格式。
可生成符合主題和風格的多樣化文本內容
圖像描述生成
根據輸入圖像生成詳細描述。
能準確識別圖像中的物體、場景和活動
研究和教育
NLP研究
作為自然語言處理和生成模型研究的基礎模型。
支持多種NLP任務的實驗和開發
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase