A

Asr Conformer Largescaleasr

由speechbrain開發
這是一個基於SpeechBrain框架訓練的端到端自動語音識別系統,使用Conformer架構在25,000小時英文語音數據上訓練。
下載量 92
發布時間 : 2/6/2025

模型概述

該模型是一個高性能的自動語音識別系統,結合了Conformer編碼器和CTC+Transformer聯合解碼器,支持英文語音轉錄。

模型特點

大規模訓練數據
基於25,000小時的LargeScaleASR數據集訓練,涵蓋多種語音場景
高效架構
採用Conformer架構,結合了CNN和Transformer的優勢,適合語音識別任務
靈活解碼
支持多種解碼方式,包括大波束寬度全解碼、貪婪解碼和僅注意力解碼

模型能力

英文語音識別
音頻轉錄
語音轉文本

使用案例

語音轉錄
會議記錄
將會議錄音自動轉錄為文字記錄
驗證集WER 6.8,測試集WER 7.5
語音筆記
將語音筆記轉換為可搜索的文本
輔助技術
即時字幕生成
為視頻或直播內容生成即時字幕
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase