W

Wav2vec2 Base 100h

由facebook開發
Wav2Vec2基礎版是在16kHz採樣的Librispeech語音音頻上進行了100小時預訓練和微調的自動語音識別模型。
下載量 4,380
發布時間 : 3/2/2022

模型概述

該模型通過從語音音頻中學習強大表示並進行微調,實現了高效的語音識別功能,特別適用於有限標註數據的場景。

模型特點

高效語音表示學習
通過潛在空間掩碼處理和量化對比任務,學習強大的語音表示。
低標註數據需求
在有限標註數據下仍能實現高性能,1小時標註數據即可超越之前100小時子集的最先進技術。
高準確率
在Librispeech測試集上達到1.8/3.3的詞錯誤率(WER)。

模型能力

語音識別
音頻轉文本
英語語音處理

使用案例

語音轉錄
會議記錄自動生成
將會議錄音自動轉換為文字記錄
在乾淨測試集上詞錯誤率6.1%
語音助手
用於語音助手的語音識別模塊
在其他測試集上詞錯誤率13.5%
教育
語言學習應用
幫助語言學習者練習發音和聽力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase