wav2vec2-base-timit-demo-colab語音識別模型 - 開源免費低錯誤率精準識別語音

Wav2vec2 Base Timit Demo Colab

由nawta開發

基於facebook/wav2vec2-base模型在TIMIT數據集上微調的語音識別模型，具有較低的詞錯誤率(WER)。

下載量 96

發布時間 : 6/27/2022

模型概述

該模型是用於英語語音識別的預訓練模型，經過微調後在TIMIT數據集上表現出色。

低詞錯誤率

在TIMIT數據集上取得了0.0168的詞錯誤率(WER)，表現優異。

基於wav2vec2架構

採用facebook的wav2vec2-base架構，具有良好的語音特徵提取能力。

微調優化

經過30輪次的精細微調，模型性能得到顯著提升。

英語語音識別

音頻轉文本

語音內容分析

語音轉錄

會議記錄

將英語會議錄音自動轉換為文字記錄

準確率高達98.32% (WER=0.0168)

語音筆記

將口語筆記轉換為可搜索的文本

語音助手

語音指令識別

識別並執行英語語音指令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
4.5738	2.82	500	2.8712	1.0
1.3905	5.65	1000	0.2342	0.2124
0.1868	8.47	1500	0.1023	0.0697
0.0831	11.3	2000	0.0603	0.0339
0.0512	14.12	2500	0.0519	0.0263
0.0363	16.95	3000	0.0478	0.0228
0.0267	19.77	3500	0.0490	0.0228
0.0205	22.6	4000	0.0390	0.0182
0.0163	25.42	4500	0.0418	0.0184
0.0145	28.25	5000	0.0403	0.0168