wav2vec2-large-voxrex-npsc開源自動語音識別模型

Wav2vec2 Large Voxrex Npsc

由NbAiLab開發

基於KBLab/wav2vec2-large-voxrex在NBAILAB/NPSC - 16K_MP3數據集上微調的自動語音識別模型

下載量 37

發布時間 : 3/2/2022

模型概述

本模型是針對挪威語語音識別任務優化的自動語音識別(ASR)模型，在NPSC數據集上微調，適用於挪威語語音轉文本任務。

挪威語優化

專門針對挪威語語音識別任務進行微調優化

基於wav2vec2架構

採用強大的wav2vec2-large-voxrex基礎模型

強健語音處理

能夠處理各種語音質量和環境條件下的語音輸入

挪威語語音識別

語音轉文本

16kHz音頻處理

語音轉錄

挪威語會議記錄

將挪威語會議錄音自動轉錄為文字記錄

在NPSC評估集上達到約11%的詞錯誤率

語音助手

為挪威語語音助手提供語音識別能力

本模型是 KBLab/wav2vec2-large-voxrex 在 NBAILAB/NPSC - 16K_MP3 數據集上的微調版本。它在評估集上取得了以下結果：

更多信息待補充。

更多信息待補充。

更多信息待補充。

訓練期間使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
2.9728	0.32	500	2.9449	1.0
2.5099	0.64	1000	1.8492	0.9910
0.7872	0.97	1500	0.4467	0.3774
0.5993	1.29	2000	0.3181	0.2819
0.5134	1.61	2500	0.2638	0.2401
0.4544	1.93	3000	0.2287	0.2091
0.4085	2.26	3500	0.2153	0.1918
0.3921	2.58	4000	0.2004	0.1804
0.4613	2.9	4500	0.1905	0.1732
0.3402	3.22	5000	0.1778	0.1659
0.3258	3.55	5500	0.1732	0.1571
0.3044	3.87	6000	0.1677	0.1497
0.2914	4.19	6500	0.1597	0.1420
0.278	4.51	7000	0.1574	0.1386
0.2858	4.84	7500	0.1552	0.1300
0.2585	5.16	8000	0.1523	0.1276
0.2827	5.48	8500	0.1448	0.1265
0.3365	5.8	9000	0.1411	0.1232
0.2488	6.13	9500	0.1456	0.1195
0.2406	6.45	10000	0.1414	0.1194
0.2488	6.77	10500	0.1393	0.1173
0.3084	7.09	11000	0.1379	0.1164
0.2365	7.41	11500	0.1387	0.1165
0.2217	7.74	12000	0.1381	0.1132
0.2381	8.06	12500	0.1360	0.1126
0.2329	8.38	13000	0.1357	0.1124
0.2103	8.7	13500	0.1335	0.1087
0.2366	9.03	14000	0.1388	0.1105
0.2289	9.35	14500	0.1383	0.1098
0.2486	9.67	15000	0.1386	0.1087
0.2772	9.99	15500	0.1598	0.1093
0.2728	10.32	16000	0.1814	0.1110
0.3437	10.64	16500	0.2505	0.1124
0.431	10.96	17000	0.2828	0.1143
0.3929	11.28	17500	0.2977	0.1149
0.4396	11.61	18000	0.3198	0.1170
0.59	11.93	18500	0.4158	0.1315
0.7813	12.25	19000	0.6123	0.2208
0.9345	12.57	19500	0.6815	0.2885
0.998	12.89	20000	0.7587	0.1991
1.0493	13.22	20500	0.7583	0.1996
1.438	13.54	21000	nan	1.0
0.0	13.86	21500	nan	1.0
0.0	14.18	22000	nan	1.0
0.0	14.51	22500	nan	1.0
0.0	14.83	23000	nan	1.0