W

Wav2vec2 Base Cynthia Tedlium 2500 V2

由huyue012開發
該模型是基於facebook/wav2vec2-base-960h在TED-LIUM數據集上微調的語音識別模型,在評估集上達到20.33%的詞錯誤率。
下載量 25
發布時間 : 3/2/2022

模型概述

一個針對英語語音識別任務優化的wav2vec2模型,適用於語音轉文本應用場景。

模型特點

低詞錯誤率
在TED-LIUM評估集上達到20.33%的詞錯誤率,表現優異
基於wav2vec2架構
採用經過驗證的wav2vec2-base-960h作為基礎模型
精細調優
經過50輪訓練和3500步的精細調優過程

模型能力

英語語音識別
音頻轉文本
連續語音識別

使用案例

教育
講座轉錄
將TED演講等教育內容自動轉錄為文字
準確率約80%
會議記錄
會議記錄自動化
自動記錄會議內容並生成文字記錄
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase