W

Wav2vec Osr

由iamtarun開發
為The Sound Of AI開源研究小組的語音轉文本模塊微調的Facebook wav2vec2模型
下載量 22
發布時間 : 3/2/2022

模型概述

基於wav2vec2的語音識別模型,支持將語音轉換為文本。原始模型在Librispeech 960小時語音數據上預訓練和微調,適用於16kHz採樣的語音輸入。

模型特點

高效語音識別
在有限標記數據下仍能實現高質量的語音識別
預訓練與微調結合
先在大量未標記語音數據上預訓練,再在標記數據上微調
對比學習
使用潛在空間掩碼和對比任務學習語音表示

模型能力

語音轉文本
英語語音識別

使用案例

語音轉錄
會議記錄
將會議錄音自動轉換為文字記錄
語音筆記
將語音筆記轉換為可搜索的文本
輔助技術
聽力輔助
為聽障人士提供即時語音轉文字服務
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase