I

Iwslt Asr Wav2vec Large 4500h

由nguyenvulebinh開發
基於Wav2Vec2架構的大規模英語自動語音識別模型,在4500小時多源語音數據上微調,支持帶語言模型的解碼
下載量 27
發布時間 : 3/23/2022

模型概述

該模型是基於Facebook的Wav2Vec2架構微調的英語自動語音識別系統,整合了語言模型以提高轉錄準確率,適用於多種英語口音的語音轉文本任務

模型特點

多源數據訓練
在7個不同來源的語音數據集上訓練,總時長超過4500小時
語言模型集成
提供帶語言模型的處理器,顯著降低詞錯誤率
高性能轉錄
在自由語音測試集上達到1.1%的詞錯誤率(帶語言模型)

模型能力

英語語音識別
帶語言模型的語音解碼
多口音英語處理

使用案例

語音轉錄
會議記錄
將英語會議錄音自動轉為文字記錄
在自由語音測試集上詞錯誤率僅1.1%
教育內容轉錄
將英語教學視頻/音頻轉為文字
在TED演講數據上詞錯誤率5.4%
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase