G

Gemma 3 4b It Speech

Developed by junnei
Gemma-3-MM是基于Gemma-3-4b-it扩展的多模态指令模型,新增语音处理能力,可处理文本、图像和音频输入,生成文本输出。
Downloads 383
Release Time : 3/22/2025

Model Overview

开源多模态指令模型,在Gemma-3基础上扩展语音处理能力,支持英语和韩语的语音识别与翻译任务。

Model Features

多模态处理能力
可同时处理文本、图像和音频输入,生成文本输出
长上下文支持
支持128K token的上下文长度(1B模型为32K)
语音适配器
通过添加596B参数的LoRA适配器扩展语音处理功能
多语言支持
支持英语和韩语的语音识别与翻译

Model Capabilities

文本生成
语音识别
语音翻译
多模态理解

Use Cases

语音转写
英语语音转录
将英语语音转换为文本
在LibriSpeech清洁版测试集上达到94.28 BLEU分数
韩语语音转录
将韩语语音转换为文本
在Zeroth测试集上达到94.91 BLEU分数
语音翻译
英韩翻译
将英语语音翻译为韩语文本
在Covost2测试集上达到31.55 BLEU分数
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase