wav2vec2-large-xlsr-53微調語音識別模型開源 - 優化10ms音頻掩碼數據識別

Wav2vec2 Large Xlsr 53 Toy Train Data Masked Audio 10ms

由scasutt開發

基於facebook/wav2vec2-large-xlsr-53微調的語音識別模型，在10ms音頻掩碼訓練數據上優化

下載量 22

發布時間 : 3/28/2022

模型概述

該模型是針對語音識別任務優化的版本，通過微調提升了在特定條件下的識別準確率

10ms音頻掩碼訓練

使用10ms音頻掩碼的特殊訓練方法，可能提高了模型對短時音頻特徵的識別能力

微調優化

基於預訓練模型進行微調，在特定數據集上取得了更好的性能表現

語音識別

音頻特徵提取

語音轉文字

語音轉錄

將語音內容轉換為文字

詞錯誤率0.4929

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.4049	1.05	250	3.3497	1.0
3.0851	2.1	500	3.4440	1.0
2.3512	3.15	750	1.5938	0.9317
1.1762	4.2	1000	0.8481	0.7333
0.903	5.25	1250	0.7180	0.6484
0.6754	6.3	1500	0.6603	0.6044
0.5961	7.35	1750	0.6410	0.5778
0.5325	8.4	2000	0.6245	0.5545
0.4685	9.45	2250	0.5925	0.5359
0.4526	10.5	2500	0.5991	0.5345
0.3975	11.55	2750	0.5916	0.5228
0.3672	12.6	3000	0.5882	0.5037
0.3774	13.65	3250	0.5693	0.5028
0.3489	14.7	3500	0.5645	0.5018
0.3593	15.75	3750	0.5977	0.5043
0.3167	16.81	4000	0.6049	0.5018
0.3225	17.86	4250	0.6172	0.4921
0.2807	18.91	4500	0.5937	0.4923
0.2889	19.96	4750	0.5945	0.4929