wav2vec2-base_toy_train_data_augmented開源語音識別模型

Wav2vec2 Base Toy Train Data Augmented

由scasutt開發

基於facebook/wav2vec2-base模型微調的語音識別模型，在增強訓練數據上進行了優化。

下載量 22

發布時間 : 3/26/2022

模型概述

該模型是一個語音識別模型，基於wav2vec2架構，通過微調在特定數據集上提升了識別準確率。

數據增強訓練

模型在訓練過程中使用了數據增強技術，提升了泛化能力。

低詞錯誤率

經過微調後，模型在驗證集上取得了較低的詞錯誤率（Wer）。

語音識別

音頻轉文本

語音轉寫

會議記錄轉寫

將會議錄音自動轉寫為文本，便於記錄和檢索。

語音助手

用於語音助手中的語音識別模塊，提升識別準確率。

訓練損失	輪數	步數	驗證損失	詞錯誤率（Wer）
3.12	1.05	250	3.3998	0.9982
3.0727	2.1	500	3.1261	0.9982
1.9729	3.15	750	1.4868	0.9464
1.3213	4.2	1000	1.2598	0.8833
1.0508	5.25	1250	1.0014	0.8102
0.8483	6.3	1500	0.9475	0.7944
0.7192	7.35	1750	0.9493	0.7686
0.6447	8.4	2000	0.9872	0.7573
0.6064	9.45	2250	0.9587	0.7447
0.5384	10.5	2500	0.9332	0.7320
0.4985	11.55	2750	0.9926	0.7315
0.4643	12.6	3000	1.0008	0.7292
0.4565	13.65	3250	0.9522	0.7171
0.449	14.7	3500	0.9685	0.7140
0.4307	15.75	3750	1.0080	0.7077
0.4239	16.81	4000	0.9950	0.7023
0.389	17.86	4250	1.0260	0.7007
0.3471	18.91	4500	1.0012	0.6966
0.3276	19.96	4750	1.0238	0.6969