wav2vec2-base_toy_train_data_masked_audio開源語音識別模型

Wav2vec2 Base Toy Train Data Masked Audio

由scasutt開發

基於facebook/wav2vec2-base微調的語音識別模型，在玩具數據集上訓練，支持音頻掩碼任務

下載量 22

發布時間 : 3/26/2022

模型概述

該模型是基於wav2vec2-base架構的變體，專門針對音頻掩碼任務進行優化，適用於語音識別和音頻特徵提取場景

音頻掩碼能力

專門針對音頻掩碼任務進行優化，能夠有效處理被掩碼的音頻輸入

輕量級微調

基於預訓練的wav2vec2-base模型進行微調，適合小規模數據集

漸進式性能提升

訓練過程中詞錯誤率從1.0逐步降低到0.7340，顯示良好的學習曲線

語音識別

音頻特徵提取

掩碼音頻預測

語音處理

噪聲環境語音識別

在部分音頻被掩碼或噪聲干擾的情況下進行語音識別

詞錯誤率0.7340

音頻數據增強

用於生成音頻掩碼任務的訓練數據

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.1287	2.1	250	3.4581	1.0
3.0259	4.2	500	2.8099	0.9999
1.4881	6.3	750	1.2929	0.8950
0.9665	8.4	1000	1.1675	0.8346
0.7614	10.5	1250	1.1388	0.8003
0.5858	12.6	1500	1.1510	0.7672
0.5005	14.7	1750	1.1606	0.7532
0.4486	16.8	2000	1.1571	0.7427
0.4224	18.9	2250	1.1950	0.7340