wav2vec2-base-timit-demo-google-colab開源語音識別模型

Wav2vec2 Base Timit Demo Google Colab

由neweasterns開發

該模型是基於facebook/wav2vec2-base在TIMIT數據集上微調得到的語音識別模型，主要用於英語語音轉文本任務。

下載量 100

發布時間 : 6/27/2022

模型概述

基於wav2vec2架構的語音識別模型，經過TIMIT數據集微調，能夠將英語語音轉換為文本。

高效微調

基於預訓練的wav2vec2-base模型進行微調，顯著提升了在TIMIT數據集上的識別準確率

低詞錯誤率

經過30輪訓練後，詞錯誤率(WER)降至0.3388，表現優於基礎模型

優化訓練

採用Adam優化器和線性學習率調度器，包含1000步預熱，確保訓練穩定性

英語語音識別

語音轉文本

自動語音識別

語音轉錄

會議記錄

將英語會議錄音自動轉換為文字記錄

詞錯誤率約34%

語音指令識別

識別英語語音指令並轉換為可執行命令

教育

發音評估

用於英語學習者的發音準確度評估

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.5597	1.0	500	2.3415	0.9991
0.9759	2.01	1000	0.5556	0.5382
0.4587	3.01	1500	0.7690	0.4781
0.3156	4.02	2000	0.7994	0.4412
0.2272	5.02	2500	0.8948	0.4120
0.1921	6.02	3000	0.7065	0.3940
0.1618	7.03	3500	0.4333	0.3855
0.1483	8.03	4000	0.4232	0.3872
0.156	9.04	4500	0.4172	0.3749
0.1138	10.04	5000	0.4084	0.3758
0.1045	11.04	5500	0.4665	0.3623
0.0908	12.05	6000	0.4416	0.3684
0.0788	13.05	6500	0.4801	0.3659
0.0773	14.06	7000	0.4560	0.3583
0.0684	15.06	7500	0.4878	0.3610
0.0645	16.06	8000	0.4635	0.3567
0.0577	17.07	8500	0.5245	0.3548
0.0547	18.07	9000	0.5265	0.3639
0.0466	19.08	9500	0.5161	0.3546
0.0432	20.08	10000	0.5263	0.3558
0.0414	21.08	10500	0.4874	0.3500
0.0365	22.09	11000	0.5266	0.3472
0.0321	23.09	11500	0.5422	0.3458
0.0325	24.1	12000	0.5201	0.3428
0.0262	25.1	12500	0.5208	0.3398
0.0249	26.1	13000	0.5034	0.3429
0.0262	27.11	13500	0.5055	0.3396
0.0248	28.11	14000	0.5164	0.3404
0.0222	29.12	14500	0.5206	0.3388