G

Gemma 3n E4B It

由 google 开发
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建,支持文本、音频和视觉输入。
下载量 1,690
发布时间 : 6/3/2025

模型简介

Gemma 3n是一个多模态模型,能够处理文本、音频、图像和视频输入,适用于自动语音识别、自动语音翻译等多种任务。

模型特点

多模态输入支持
能够同时处理文本、音频、图像和视频输入,实现跨模态理解与生成。
高效资源利用
采用选择性参数激活技术,以4B有效参数实现高性能,内存占用与传统4B模型相当。
广泛训练数据
在包含约11万亿标记的多样化数据集上训练,涵盖网络文档、代码、数学、图像和音频。
架构创新
采用MatFormer架构,允许在E4B模型中嵌套子模型,提升模型效率。

模型能力

文本生成
图像内容分析
语音识别
多语言翻译
代码生成
数学推理
视觉问答

使用案例

内容创作和通信
创意文本生成
生成诗歌、剧本、营销文案等创意文本格式。
可生成符合主题和风格的多样化文本内容
图像描述生成
根据输入图像生成详细描述。
能准确识别图像中的物体、场景和活动
研究和教育
NLP研究
作为自然语言处理和生成模型研究的基础模型。
支持多种NLP任务的实验和开发
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase