G

Gemma 3 4b It Speech

由junnei開發
Gemma-3-MM是基於Gemma-3-4b-it擴展的多模態指令模型,新增語音處理能力,可處理文本、圖像和音頻輸入,生成文本輸出。
下載量 383
發布時間 : 3/22/2025

模型概述

開源多模態指令模型,在Gemma-3基礎上擴展語音處理能力,支持英語和韓語的語音識別與翻譯任務。

模型特點

多模態處理能力
可同時處理文本、圖像和音頻輸入,生成文本輸出
長上下文支持
支持128K token的上下文長度(1B模型為32K)
語音適配器
通過添加596B參數的LoRA適配器擴展語音處理功能
多語言支持
支持英語和韓語的語音識別與翻譯

模型能力

文本生成
語音識別
語音翻譯
多模態理解

使用案例

語音轉寫
英語語音轉錄
將英語語音轉換為文本
在LibriSpeech清潔版測試集上達到94.28 BLEU分數
韓語語音轉錄
將韓語語音轉換為文本
在Zeroth測試集上達到94.91 BLEU分數
語音翻譯
英韓翻譯
將英語語音翻譯為韓語文本
在Covost2測試集上達到31.55 BLEU分數
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase