W

Wav2vec2 Large 960h Lv60 Self

由facebook開發
Facebook開發的Wav2Vec2大模型,基於960小時Libri-Light和Librispeech語音數據預訓練和微調,採用自訓練目標,在LibriSpeech測試集上達到SOTA效果。
下載量 56.00k
發布時間 : 3/2/2022

模型概述

用於自動語音識別(ASR)的預訓練模型,通過自監督學習從原始音頻中學習語音表徵,再通過微調實現高精度語音轉文本。

模型特點

自監督預訓練
通過對比學習目標在潛在空間中學習語音表徵,減少對標註數據的依賴
高精度識別
在LibriSpeech測試集上達到1.9/3.9 WER(clean/other)的SOTA效果
低資源適應
僅需少量標註數據即可微調,在1小時標註數據下仍超越傳統方法

模型能力

英語語音識別
16kHz音頻處理
端到端語音轉文本

使用案例

語音轉錄
會議記錄自動化
將英語會議錄音自動轉換為文字記錄
高準確率轉錄,減少人工記錄成本
播客字幕生成
為英語播客內容自動生成字幕
支持批量處理,準確率達96%以上
輔助技術
聽力障礙輔助
即時將語音轉換為文字供聽力障礙人士閱讀
低延遲即時轉換
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase