A

Asr Streaming Conformer Gigaspeech

由speechbrain開發
基於GigaSpeech數據集預訓練的英文自動語音識別模型,支持流式和非流式轉錄
下載量 66
發布時間 : 11/6/2024

模型概述

這是一個使用Conformer架構和RNN-T損失訓練的端到端自動語音識別系統,支持動態分塊訓練以實現流式轉錄功能。

模型特點

流式支持
支持動態分塊訓練,可在不同分塊大小下進行流式轉錄
高性能
在GigaSpeech測試集上達到11.00%的詞錯誤率(非流式模式)
靈活配置
可根據需求在延遲和準確性之間進行權衡調整
多場景適用
支持離線轉錄和即時流式轉錄兩種模式

模型能力

英語語音識別
即時流式轉錄
離線批量轉錄
動態分塊處理

使用案例

語音轉錄
即時語音轉文字
用於即時會議記錄或直播字幕生成
在960ms分塊大小下達到11.53%詞錯誤率
音頻文件轉錄
批量處理音頻文件轉換為文字
非流式模式下達到11.00%詞錯誤率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase