G

Granite Speech 3.3 8b

由ibm-granite開發
專為自動語音識別(ASR)和自動語音翻譯(AST)設計的緊湊高效語音語言模型,採用雙階段設計處理音頻和文本
下載量 5,532
發布時間 : 4/14/2025

模型概述

基於Granite-3.3-8b-instruct適配的語音語言模型,擅長英語語音轉文本及英語到多語種的語音翻譯,採用模態對齊技術訓練

模型特點

雙階段處理設計
先轉寫音頻為文本,再通過底層語言模型處理文本,降低模態干擾風險
多任務支持
同時支持語音識別(ASR)和語音翻譯(AST)任務
高效架構
10層Conformer編碼器配合2層Transformer降採樣器,實現10倍時序壓縮
企業級優化
針對企業語音處理場景優化,尤其擅長英語及主流歐洲語言處理

模型能力

英語語音轉文本
英語到多語種語音翻譯
純文本任務處理
長音頻處理(支持128k上下文)

使用案例

語音轉錄
會議記錄自動化
將英語會議錄音即時轉寫為文字記錄
在CommonVoice-17測試集上達到SOTA水平
跨語言溝通
即時語音翻譯
英語到法語/西班牙語等語言的即時語音轉換
在IWSLT測試集上超越同類8B參數模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase