wav2vec2-base-timit-demo-colab6開源語音識別模型 - 低錯誤率精準識別語音內容

Wav2vec2 Base Timit Demo Colab6

由hassnain開發

該模型是基於facebook/wav2vec2-base微調的語音識別模型，在TIMIT數據集上訓練，詞錯誤率(WER)為0.5282。

下載量 19

發布時間 : 5/1/2022

模型概述

一個用於英語語音識別的微調模型，基於wav2vec2架構，適用於語音轉文本任務。

低詞錯誤率

在評估集上達到0.5282的詞錯誤率(WER)，表現優異。

基於wav2vec2架構

採用facebook的wav2vec2-base作為基礎模型，具有強大的語音特徵提取能力。

高效訓練

使用混合精度訓練和線性學習率調度器，訓練效率高。

英語語音識別

語音轉文本

語音轉錄

會議記錄轉錄

將英語會議錄音自動轉換為文字記錄

準確率約47.18% (WER=0.5282)

語音指令識別

識別英語語音指令並轉換為可執行命令

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
5.3117	7.35	500	3.1548	1.0
1.6732	14.71	1000	0.8857	0.6561
0.5267	22.06	1500	0.7931	0.6018
0.2951	29.41	2000	0.8152	0.5816
0.2013	36.76	2500	0.9060	0.5655
0.1487	44.12	3000	0.9201	0.5624
0.1189	51.47	3500	0.9394	0.5412
0.1004	58.82	4000	0.9394	0.5282