G

Granite Speech 3.3 2b

由ibm-granite開發
Granite-speech-3.3-2b是IBM開發的緊湊高效語音語言模型,專為自動語音識別(ASR)和自動語音翻譯(AST)設計,採用雙通設計提高模塊化和安全性。
下載量 4,363
發布時間 : 4/28/2025

模型概述

該模型專注於將語音轉換為文本(ASR)和語音翻譯(AST),採用模塊化設計,首次調用轉錄音頻,二次調用處理文本,支持多語言任務。

模型特點

雙通設計
與單通集成模型不同,先獨立轉錄音頻,再處理文本,提高模塊化和安全性。
多任務支持
同時支持語音識別和語音翻譯任務,適應多種應用場景。
高效架構
結合Conformer編碼器、q-former下采樣器和Granite大語言模型,平衡性能與效率。
LoRA適配
採用秩為64的LoRA適配器優化查詢和值投影矩陣,提升模型靈活性。

模型能力

語音轉文本
跨語言語音翻譯
長音頻處理(支持128k上下文)

使用案例

語音轉錄
會議記錄自動化
將會議錄音即時轉換為文字記錄
高準確率的英文轉錄輸出
即時翻譯
多語言語音翻譯
將英語語音即時翻譯為7種目標語言
支持德語/西班牙語/法語/意大利語/日語/葡萄牙語/中文輸出
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase