wav2vec2-base_toy_train_data_random_noise開源語音識別模型

Wav2vec2 Base Toy Train Data Random Noise

由scasutt開發

該模型是基於facebook/wav2vec2-base在玩具訓練數據上微調的語音識別模型，主要用於處理隨機噪聲環境下的語音識別任務。

下載量 22

發布時間 : 3/27/2022

模型概述

這是一個經過微調的wav2vec2-base模型，專門用於在隨機噪聲環境下進行語音識別。模型在評估集上取得了0.7351的詞錯誤率。

噪聲環境適應

針對隨機噪聲環境進行了優化，提高了在嘈雜條件下的語音識別準確率

基於wav2vec2架構

建立在強大的wav2vec2-base模型基礎上，繼承了其優秀的語音特徵提取能力

語音識別

噪聲環境下的語音處理

語音轉錄

嘈雜環境下的語音轉錄

將包含隨機噪聲的語音轉換為文字

詞錯誤率0.7351

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
3.128	2.1	250	3.5052	1.0
3.0423	4.2	500	2.9312	1.0
1.4109	6.3	750	1.2618	0.8915
0.9132	8.4	1000	1.1074	0.8436
0.7146	10.5	1250	1.0397	0.7876
0.5418	12.6	1500	1.0359	0.7662
0.4649	14.7	1750	1.0469	0.7467
0.4127	16.8	2000	1.0655	0.7404
0.3881	18.9	2250	1.0909	0.7351