wav2vec2-base_toy_train_data_random_noise_0.1開源語音識別模型

Wav2vec2 Base Toy Train Data Random Noise 0.1

由scasutt開發

基於facebook/wav2vec2-base模型在隨機噪聲數據集上微調的語音識別模型

下載量 22

發布時間 : 3/26/2022

模型概述

該模型是wav2vec2-base的微調版本，主要用於語音識別任務，在添加了隨機噪聲的數據集上進行了訓練。

噪聲魯棒性

在添加了隨機噪聲的數據集上訓練，具有一定程度的噪聲魯棒性

基於wav2vec2架構

採用Facebook的wav2vec2-base架構，具有良好的語音特徵提取能力

語音識別

噪聲環境下的語音處理

語音識別

噪聲環境語音轉錄

在有一定背景噪聲的環境中識別和轉錄語音

詞錯誤率(WER)為0.7213

訓練損失	輪數	步數	驗證損失	字錯誤率（Wer）
3.1296	2.1	250	3.5088	1.0
3.0728	4.2	500	3.1694	1.0
1.8686	6.3	750	1.3414	0.9321
1.1241	8.4	1000	1.0196	0.8321
0.8704	10.5	1250	0.9387	0.7962
0.6734	12.6	1500	0.9309	0.7640
0.5832	14.7	1750	0.9329	0.7346
0.5207	16.8	2000	0.9060	0.7247
0.4857	18.9	2250	0.9263	0.7213