G

Gemma 3 4b It Speech

由 junnei 开发
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
下载量 383
发布时间 : 3/22/2025

模型简介

开源多模态指令模型,在Gemma-3基础上扩展语音处理能力,支持英语和韩语的语音识别与翻译任务。

模型特点

多模态处理能力
可同时处理文本、图像和音频输入,生成文本输出
长上下文支持
支持128K token的上下文长度(1B模型为32K)
语音适配器
通过添加596B参数的LoRA适配器扩展语音处理功能
多语言支持
支持英语和韩语的语音识别与翻译

模型能力

文本生成
语音识别
语音翻译
多模态理解

使用案例

语音转写
英语语音转录
将英语语音转换为文本
在LibriSpeech清洁版测试集上达到94.28 BLEU分数
韩语语音转录
将韩语语音转换为文本
在Zeroth测试集上达到94.91 BLEU分数
语音翻译
英韩翻译
将英语语音翻译为韩语文本
在Covost2测试集上达到31.55 BLEU分数
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase