S

Simpleoier Librispeech Asr Train Asr Conformer7 Wavlm Large Raw En Bpe5000 Sp

由espnet開發
基於ESPnet框架訓練的自動語音識別(ASR)模型,使用Conformer架構和WavLM大型預訓練模型,在LibriSpeech數據集上訓練。
下載量 66
發布時間 : 3/2/2022

模型概述

該模型是一個高性能的英語自動語音識別系統,專為處理原始音頻輸入並轉換為文本而設計。

模型特點

高性能架構
結合Conformer7和WavLM大型預訓練模型,提供卓越的語音識別能力
LibriSpeech訓練
在廣泛使用的LibriSpeech數據集上訓練,確保模型在多種語音條件下的魯棒性
低錯誤率
在測試集上表現出色,詞錯誤率(WER)在乾淨語音上低至1.8%,在嘈雜語音上為3.7%

模型能力

英語語音識別
原始音頻處理
大規模語音轉文本

使用案例

語音轉錄
會議記錄
自動轉錄會議錄音
準確率高達98.4%(測試集clean數據)
音頻字幕生成
為播客或視頻內容生成字幕
在嘈雜語音環境下仍保持96.7%準確率
語音助手
語音命令識別
識別和執行語音命令
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase