A

Asr Streaming Conformer Librispeech

由speechbrain開發
這是一個基於LibriSpeech數據集預訓練的端到端自動語音識別系統,支持流式和非流式模式,適用於英文語音識別。
下載量 304
發布時間 : 2/15/2024

模型概述

該模型使用康福默架構和RNN-T損失訓練,支持動態塊訓練以實現流式轉錄,在LibriSpeech測試集上表現出色。

模型特點

流式與非流式支持
支持動態塊訓練,可在不同塊大小下工作,平衡延遲和準確性
高性能識別
在LibriSpeech測試乾淨集上達到2.72%的詞錯誤率
動態塊卷積
實現動態塊卷積技術,統一流式和非流式處理

模型能力

英文語音識別
即時流式轉錄
離線音頻文件轉錄

使用案例

語音轉文字
即時會議記錄
用於即時轉錄會議或講座內容
在960ms塊大小下達到3.13%詞錯誤率
音頻文件轉錄
將預錄製的英文音頻文件轉換為文字
在完整上下文模式下達到2.72%詞錯誤率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase