librispeech-100h-supervised開源語音識別模型

Librispeech 100h Supervised

由Kuray107開發

該模型是基於facebook/wav2vec2-large-lv60在LibriSpeech 100小時數據集上進行微調的語音識別模型，取得了較低的詞錯誤率。

下載量 14

發布時間 : 3/2/2022

模型概述

這是一個用於英語語音識別的監督學習模型，基於wav2vec2架構，在LibriSpeech 100小時數據集上微調而成。

低詞錯誤率

在評估集上取得了0.0345的詞錯誤率(WER)，表現優異。

基於wav2vec2架構

採用facebook/wav2vec2-large-lv60作為基礎模型，具有強大的語音特徵提取能力。

監督學習微調

在LibriSpeech 100小時數據集上進行監督學習微調，優化了語音識別性能。

英語語音識別

音頻轉文本

語音轉錄

會議記錄

將會議錄音自動轉錄為文字記錄

準確率高達96.55%

字幕生成

為視頻內容自動生成英文字幕

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
4.8277	0.42	500	2.9071	1.0
2.0261	0.84	1000	0.3060	0.2496
0.2181	1.26	1500	0.1172	0.0873
0.1255	1.68	2000	0.0894	0.0637
0.0971	2.1	2500	0.0821	0.0560
0.078	2.52	3000	0.0751	0.0500
0.0706	2.94	3500	0.0721	0.0456
0.0609	3.36	4000	0.0755	0.0464
0.0572	3.78	4500	0.0705	0.0431
0.0528	4.2	5000	0.0715	0.0423
0.0481	4.62	5500	0.0691	0.0403
0.0471	5.04	6000	0.0743	0.0401
0.0412	5.46	6500	0.0757	0.0399
0.0416	5.88	7000	0.0688	0.0378
0.0391	6.3	7500	0.0704	0.0383
0.0367	6.72	8000	0.0742	0.0387
0.0349	7.14	8500	0.0732	0.0388
0.033	7.56	9000	0.0719	0.0374
0.0327	7.98	9500	0.0750	0.0369
0.0292	8.4	10000	0.0734	0.0368
0.0303	8.82	10500	0.0733	0.0365
0.0283	9.24	11000	0.0766	0.0357
0.0269	9.66	11500	0.0761	0.0350
0.0268	10.08	12000	0.0802	0.0359
0.0245	10.42	12500	0.0758	0.0354
0.023	10.84	13000	0.0775	0.0349
0.0186	11.26	13500	0.0817	0.0355
0.0176	11.68	14000	0.0853	0.0354
0.0163	12.1	14500	0.0880	0.0347
0.0156	12.52	15000	0.0864	0.0357
0.0141	12.94	15500	0.0897	0.0355
0.0134	13.36	16000	0.0915	0.0349
0.013	13.78	16500	0.0928	0.0350
0.0097	13.42	17000	0.0955	0.0345