librispeech-100h-supervised开源语音识别模型

Librispeech 100h Supervised

由 Kuray107 开发

该模型是基于facebook/wav2vec2-large-lv60在LibriSpeech 100小时数据集上进行微调的语音识别模型，取得了较低的词错误率。

下载量 14

发布时间 : 3/2/2022

模型简介

这是一个用于英语语音识别的监督学习模型，基于wav2vec2架构，在LibriSpeech 100小时数据集上微调而成。

低词错误率

在评估集上取得了0.0345的词错误率(WER)，表现优异。

基于wav2vec2架构

采用facebook/wav2vec2-large-lv60作为基础模型，具有强大的语音特征提取能力。

监督学习微调

在LibriSpeech 100小时数据集上进行监督学习微调，优化了语音识别性能。

英语语音识别

音频转文本

语音转录

会议记录

将会议录音自动转录为文字记录

准确率高达96.55%

字幕生成

为视频内容自动生成英文字幕

训练损失	轮数	步数	验证损失	字错率（Wer）
4.8277	0.42	500	2.9071	1.0
2.0261	0.84	1000	0.3060	0.2496
0.2181	1.26	1500	0.1172	0.0873
0.1255	1.68	2000	0.0894	0.0637
0.0971	2.1	2500	0.0821	0.0560
0.078	2.52	3000	0.0751	0.0500
0.0706	2.94	3500	0.0721	0.0456
0.0609	3.36	4000	0.0755	0.0464
0.0572	3.78	4500	0.0705	0.0431
0.0528	4.2	5000	0.0715	0.0423
0.0481	4.62	5500	0.0691	0.0403
0.0471	5.04	6000	0.0743	0.0401
0.0412	5.46	6500	0.0757	0.0399
0.0416	5.88	7000	0.0688	0.0378
0.0391	6.3	7500	0.0704	0.0383
0.0367	6.72	8000	0.0742	0.0387
0.0349	7.14	8500	0.0732	0.0388
0.033	7.56	9000	0.0719	0.0374
0.0327	7.98	9500	0.0750	0.0369
0.0292	8.4	10000	0.0734	0.0368
0.0303	8.82	10500	0.0733	0.0365
0.0283	9.24	11000	0.0766	0.0357
0.0269	9.66	11500	0.0761	0.0350
0.0268	10.08	12000	0.0802	0.0359
0.0245	10.42	12500	0.0758	0.0354
0.023	10.84	13000	0.0775	0.0349
0.0186	11.26	13500	0.0817	0.0355
0.0176	11.68	14000	0.0853	0.0354
0.0163	12.1	14500	0.0880	0.0347
0.0156	12.52	15000	0.0864	0.0357
0.0141	12.94	15500	0.0897	0.0355
0.0134	13.36	16000	0.0915	0.0349
0.013	13.78	16500	0.0928	0.0350
0.0097	13.42	17000	0.0955	0.0345