wav2vec2-xls-r-300m-hebrew開源模型 - 助力希伯來語自動語音識別

首頁

Wav2vec2 Xls R 300m Hebrew

由imvladikon開發

這是一個基於facebook/wav2vec2-xls-r-300m模型微調的希伯來語自動語音識別模型，通過兩階段訓練在小規模和大規模數據集上優化性能。

語音識別

Transformers

其他#希伯來語語音識別 #兩階段微調 #弱標記數據訓練

下載量 1.2M

發布時間 : 3/2/2022

模型概述

該模型專門用於希伯來語的自動語音識別任務，通過兩階段微調過程在小規模高質量數據集和大規模多樣化數據集上進行訓練，以提高識別準確率。

模型特點

兩階段微調訓練

先在小規模高質量數據集上微調，再在大規模多樣化數據集上進行二次訓練，提高模型魯棒性

多源數據訓練

訓練數據包含高質量標註數據、多樣化來源數據以及模型弱標記的未標記數據

低詞錯誤率

在小規模測試集上達到17.73%的詞錯誤率，在大規模測試集上達到23.18%的詞錯誤率

模型能力

希伯來語語音識別

音頻轉文本

魯棒語音處理

使用案例

語音轉錄

希伯來語會議記錄

將希伯來語會議錄音自動轉錄為文本

詞錯誤率約23.18%

希伯來語語音助手

為希伯來語語音助手提供語音識別能力

語音分析

希伯來語語音內容分析

分析希伯來語語音內容並提取關鍵信息

🚀 wav2vec2-xls-r-300m-hebrew

該模型是基於 facebook/wav2vec2-xls-r-300m 在私有數據集上進行兩階段微調得到的。首先在一個包含優質樣本的小數據集上進行微調，然後將得到的模型在一個大數據集上進行微調，該大數據集結合了小的優質數據集、來自不同來源的各種樣本，以及一個使用先前訓練的模型進行弱標註的未標註數據集。

📦 數據集詳情

小數據集

劃分	大小(GB)	樣本數量	時長(小時)
訓練集	4.19	20306	28
驗證集	1.05	5076	7

大數據集

劃分	大小(GB)	樣本數量	時長(小時)
訓練集	12.3	90777	69
驗證集	2.39	20246	14*

(*驗證集未使用弱標註數據)

📊 訓練結果

第一次訓練後

小數據集
- 損失：0.5438
- 字錯率（WER）：0.1773
大數據集
- 字錯率（WER）：0.3811

第二次訓練後

小數據集
- 字錯率（WER）：0.1697
大數據集
- 損失：0.4502
- 字錯率（WER）：0.2318

🔧 訓練過程

訓練超參數

第一次訓練

訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：8
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
設備數量：2
梯度累積步數：4
總訓練批次大小：64
總評估批次大小：16
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：100.0
混合精度訓練：原生自動混合精度（Native AMP）

第一次訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（WER）
無記錄	3.15	1000	0.5203	0.4333
1.4284	6.31	2000	0.4816	0.3951
1.4284	9.46	3000	0.4315	0.3546
1.283	12.62	4000	0.4278	0.3404
1.283	15.77	5000	0.4090	0.3054
1.1777	18.93	6000	0.3893	0.3006
1.1777	22.08	7000	0.3968	0.2857
1.0994	25.24	8000	0.3892	0.2751
1.0994	28.39	9000	0.4061	0.2690
1.0323	31.54	10000	0.4114	0.2507
1.0323	34.7	11000	0.4021	0.2508
0.9623	37.85	12000	0.4032	0.2378
0.9623	41.01	13000	0.4148	0.2374
0.9077	44.16	14000	0.4350	0.2323
0.9077	47.32	15000	0.4515	0.2246
0.8573	50.47	16000	0.4474	0.2180
0.8573	53.63	17000	0.4649	0.2171
0.8083	56.78	18000	0.4455	0.2102
0.8083	59.94	19000	0.4587	0.2092
0.769	63.09	20000	0.4794	0.2012
0.769	66.25	21000	0.4845	0.2007
0.7308	69.4	22000	0.4937	0.2008
0.7308	72.55	23000	0.4920	0.1895
0.6927	75.71	24000	0.5179	0.1911
0.6927	78.86	25000	0.5202	0.1877
0.6622	82.02	26000	0.5266	0.1840
0.6622	85.17	27000	0.5351	0.1854
0.6315	88.33	28000	0.5373	0.1811
0.6315	91.48	29000	0.5331	0.1792
0.6075	94.64	30000	0.5390	0.1779
0.6075	97.79	31000	0.5459	0.1773

第二次訓練

訓練過程中使用了以下超參數：

學習率：0.0003
訓練批次大小：8
評估批次大小：8
隨機種子：42
分佈式類型：多GPU
設備數量：2
梯度累積步數：4
總訓練批次大小：64
總評估批次大小：16
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
學習率調度器類型：線性
學習率調度器熱身步數：1000
訓練輪數：60.0
混合精度訓練：原生自動混合精度（Native AMP）

第二次訓練結果

訓練損失	輪數	步數	驗證損失	字錯率（WER）
無記錄	0.7	1000	0.5371	0.3811
1.3606	1.41	2000	0.5247	0.3902
1.3606	2.12	3000	0.5126	0.3859
1.3671	2.82	4000	0.5062	0.3828
1.3671	3.53	5000	0.4979	0.3672
1.3421	4.23	6000	0.4906	0.3816
1.3421	4.94	7000	0.4784	0.3651
1.328	5.64	8000	0.4810	0.3669
1.328	6.35	9000	0.4747	0.3597
1.3109	7.05	10000	0.4813	0.3808
1.3109	7.76	11000	0.4631	0.3561
1.2873	8.46	12000	0.4603	0.3431
1.2873	9.17	13000	0.4579	0.3533
1.2661	9.87	14000	0.4471	0.3365
1.2661	10.58	15000	0.4584	0.3437
1.249	11.28	16000	0.4461	0.3454
1.249	11.99	17000	0.4482	0.3367
1.2322	12.69	18000	0.4464	0.3335
1.2322	13.4	19000	0.4427	0.3454
1.22	14.1	20000	0.4440	0.3395
1.22	14.81	21000	0.4459	0.3378
1.2044	15.51	22000	0.4406	0.3199
1.2044	16.22	23000	0.4398	0.3155
1.1913	16.92	24000	0.4237	0.3150
1.1913	17.63	25000	0.4287	0.3279
1.1705	18.34	26000	0.4253	0.3103
1.1705	19.04	27000	0.4234	0.3098
1.1564	19.75	28000	0.4174	0.3076
1.1564	20.45	29000	0.4260	0.3160
1.1461	21.16	30000	0.4235	0.3036
1.1461	21.86	31000	0.4309	0.3055
1.1285	22.57	32000	0.4264	0.3006
1.1285	23.27	33000	0.4201	0.2880
1.1135	23.98	34000	0.4131	0.2975
1.1135	24.68	35000	0.4202	0.2849
1.0968	25.39	36000	0.4105	0.2888
1.0968	26.09	37000	0.4210	0.2834
1.087	26.8	38000	0.4123	0.2843
1.087	27.5	39000	0.4216	0.2803
1.0707	28.21	40000	0.4161	0.2787
1.0707	28.91	41000	0.4186	0.2740
1.0575	29.62	42000	0.4118	0.2845
1.0575	30.32	43000	0.4243	0.2773
1.0474	31.03	44000	0.4221	0.2707
1.0474	31.73	45000	0.4138	0.2700
1.0333	32.44	46000	0.4102	0.2638
1.0333	33.15	47000	0.4162	0.2650
1.0191	33.85	48000	0.4155	0.2636
1.0191	34.56	49000	0.4129	0.2656
1.0087	35.26	50000	0.4157	0.2632
1.0087	35.97	51000	0.4090	0.2654
0.9901	36.67	52000	0.4183	0.2587
0.9901	37.38	53000	0.4251	0.2648
0.9795	38.08	54000	0.4229	0.2555
0.9795	38.79	55000	0.4176	0.2546
0.9644	39.49	56000	0.4223	0.2513
0.9644	40.2	57000	0.4244	0.2530
0.9534	40.9	58000	0.4175	0.2538
0.9534	41.61	59000	0.4213	0.2505
0.9397	42.31	60000	0.4275	0.2565
0.9397	43.02	61000	0.4315	0.2528
0.9269	43.72	62000	0.4316	0.2501
0.9269	44.43	63000	0.4247	0.2471
0.9175	45.13	64000	0.4376	0.2469
0.9175	45.84	65000	0.4335	0.2450
0.9026	46.54	66000	0.4336	0.2452
0.9026	47.25	67000	0.4400	0.2427
0.8929	47.95	68000	0.4382	0.2429
0.8929	48.66	69000	0.4361	0.2415
0.8786	49.37	70000	0.4413	0.2398
0.8786	50.07	71000	0.4392	0.2415
0.8714	50.78	72000	0.4345	0.2406
0.8714	51.48	73000	0.4475	0.2402
0.8589	52.19	74000	0.4473	0.2374
0.8589	52.89	75000	0.4457	0.2357
0.8493	53.6	76000	0.4462	0.2366
0.8493	54.3	77000	0.4494	0.2356
0.8395	55.01	78000	0.4472	0.2352
0.8395	55.71	79000	0.4490	0.2339
0.8295	56.42	80000	0.4489	0.2318
0.8295	57.12	81000	0.4469	0.2320
0.8225	57.83	82000	0.4478	0.2321
0.8225	58.53	83000	0.4525	0.2326
0.816	59.24	84000	0.4532	0.2316
0.816	59.94	85000	0.4502	0.2318