wav2vec2 - xls - r - 300m - ヘブライ語オープンソースモデル

ホーム

Wav2vec2 Xls R 300m Hebrew

imvladikonによって開発

これはfacebook/wav2vec2-xls-r-300mモデルをファインチューニングしたヘブライ語自動音声認識モデルで、2段階のトレーニングにより小規模と大規模のデータセットで性能を最適化しています。

音声認識

Transformers

その他#ヘブライ語音声認識 #2段階ファインチューニング #弱ラベルデータ学習

ダウンロード数 1.2M

リリース時間 : 3/2/2022

モデル概要

このモデルはヘブライ語の自動音声認識タスク専用に設計されており、小規模な高品質データセットと大規模な多様なデータセットで2段階のファインチューニングプロセスを経て、認識精度を向上させています。

モデル特徴

2段階ファインチューニング

最初に小規模な高品質データセットでファインチューニングし、その後大規模で多様なデータセットで二次トレーニングを行い、モデルの頑健性を向上させます

マルチソースデータ学習

トレーニングデータには高品質なアノテーションデータ、多様なソースのデータ、およびモデルによって弱ラベル付けされた未ラベルデータが含まれています

低単語誤り率

小規模テストセットで17.73%、大規模テストセットで23.18%の単語誤り率を達成しています

モデル能力

ヘブライ語音声認識

音声からテキストへの変換

頑健な音声処理

使用事例

音声文字起こし

ヘブライ語会議議事録

ヘブライ語の会議録音を自動的にテキストに変換

単語誤り率約23.18%

ヘブライ語音声アシスタント

ヘブライ語音声アシスタントに音声認識機能を提供

音声分析

ヘブライ語音声コンテンツ分析

ヘブライ語音声コンテンツを分析し、キー情報を抽出

🚀 wav2vec2-xls-r-300m-hebrew

このモデルは、facebook/wav2vec2-xls-r-300m を2段階でプライベートデータセット上でファインチューニングしたバージョンです。まず、良質なサンプルを含む小規模データセットでファインチューニングし、次に、小規模の良質データセット、様々なソースからの様々なサンプル、および以前に学習したモデルを使用して弱ラベル付けされた未ラベルデータセットを含む大規模データセットで、得られたモデルをファインチューニングしました。

✨ 主な機能

このモデルは、自動音声認識タスクに特化しており、ヘブライ語の音声を高精度に認識することができます。複数段階のファインチューニングを行うことで、様々なソースからの音声データに対応できるロバスト性を備えています。

📚 ドキュメント

データセット情報

小規模データセット

分割	サイズ(gb)	サンプル数	時間(hrs)
トレーニング	4.19	20306	28
検証	1.05	5076	7

大規模データセット

分割	サイズ(gb)	サンプル数	時間(hrs)
トレーニング	12.3	90777	69
検証	2.39	20246	14*
(*弱ラベル付けされたデータは検証セットでは使用されません)

学習結果

1回目の学習後

小規模データセット
- 損失: 0.5438
- WER: 0.1773
大規模データセット
- WER: 0.3811

2回目の学習後

小規模データセット
- WER: 0.1697
大規模データセット
- 損失: 0.4502
- WER: 0.2318

学習手順

学習ハイパーパラメータ

1回目の学習

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0003
トレーニングバッチサイズ: 8
評価バッチサイズ: 8
シード: 42
分散タイプ: マルチGPU
デバイス数: 2
勾配累積ステップ数: 4
総トレーニングバッチサイズ: 64
総評価バッチサイズ: 16
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ数: 1000
エポック数: 100.0
混合精度学習: Native AMP

学習結果

トレーニング損失	エポック	ステップ	検証損失	WER
No log	3.15	1000	0.5203	0.4333
1.4284	6.31	2000	0.4816	0.3951
1.4284	9.46	3000	0.4315	0.3546
1.283	12.62	4000	0.4278	0.3404
1.283	15.77	5000	0.4090	0.3054
1.1777	18.93	6000	0.3893	0.3006
1.1777	22.08	7000	0.3968	0.2857
1.0994	25.24	8000	0.3892	0.2751
1.0994	28.39	9000	0.4061	0.2690
1.0323	31.54	10000	0.4114	0.2507
1.0323	34.7	11000	0.4021	0.2508
0.9623	37.85	12000	0.4032	0.2378
0.9623	41.01	13000	0.4148	0.2374
0.9077	44.16	14000	0.4350	0.2323
0.9077	47.32	15000	0.4515	0.2246
0.8573	50.47	16000	0.4474	0.2180
0.8573	53.63	17000	0.4649	0.2171
0.8083	56.78	18000	0.4455	0.2102
0.8083	59.94	19000	0.4587	0.2092
0.769	63.09	20000	0.4794	0.2012
0.769	66.25	21000	0.4845	0.2007
0.7308	69.4	22000	0.4937	0.2008
0.7308	72.55	23000	0.4920	0.1895
0.6927	75.71	24000	0.5179	0.1911
0.6927	78.86	25000	0.5202	0.1877
0.6622	82.02	26000	0.5266	0.1840
0.6622	85.17	27000	0.5351	0.1854
0.6315	88.33	28000	0.5373	0.1811
0.6315	91.48	29000	0.5331	0.1792
0.6075	94.64	30000	0.5390	0.1779
0.6075	97.79	31000	0.5459	0.1773

2回目の学習

学習中に以下のハイパーパラメータが使用されました。

学習率: 0.0003
トレーニングバッチサイズ: 8
評価バッチサイズ: 8
シード: 42
分散タイプ: マルチGPU
デバイス数: 2
勾配累積ステップ数: 4
総トレーニングバッチサイズ: 64
総評価バッチサイズ: 16
オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ: 線形
学習率スケジューラウォームアップステップ数: 1000
エポック数: 60.0
混合精度学習: Native AMP

学習結果

トレーニング損失	エポック	ステップ	検証損失	WER
No log	0.7	1000	0.5371	0.3811
1.3606	1.41	2000	0.5247	0.3902
1.3606	2.12	3000	0.5126	0.3859
1.3671	2.82	4000	0.5062	0.3828
1.3671	3.53	5000	0.4979	0.3672
1.3421	4.23	6000	0.4906	0.3816
1.3421	4.94	7000	0.4784	0.3651
1.328	5.64	8000	0.4810	0.3669
1.328	6.35	9000	0.4747	0.3597
1.3109	7.05	10000	0.4813	0.3808
1.3109	7.76	11000	0.4631	0.3561
1.2873	8.46	12000	0.4603	0.3431
1.2873	9.17	13000	0.4579	0.3533
1.2661	9.87	14000	0.4471	0.3365
1.2661	10.58	15000	0.4584	0.3437
1.249	11.28	16000	0.4461	0.3454
1.249	11.99	17000	0.4482	0.3367
1.2322	12.69	18000	0.4464	0.3335
1.2322	13.4	19000	0.4427	0.3454
1.22	14.1	20000	0.4440	0.3395
1.22	14.81	21000	0.4459	0.3378
1.2044	15.51	22000	0.4406	0.3199
1.2044	16.22	23000	0.4398	0.3155
1.1913	16.92	24000	0.4237	0.3150
1.1913	17.63	25000	0.4287	0.3279
1.1705	18.34	26000	0.4253	0.3103
1.1705	19.04	27000	0.4234	0.3098
1.1564	19.75	28000	0.4174	0.3076
1.1564	20.45	29000	0.4260	0.3160
1.1461	21.16	30000	0.4235	0.3036
1.1461	21.86	31000	0.4309	0.3055
1.1285	22.57	32000	0.4264	0.3006
1.1285	23.27	33000	0.4201	0.2880
1.1135	23.98	34000	0.4131	0.2975
1.1135	24.68	35000	0.4202	0.2849
1.0968	25.39	36000	0.4105	0.2888
1.0968	26.09	37000	0.4210	0.2834
1.087	26.8	38000	0.4123	0.2843
1.087	27.5	39000	0.4216	0.2803
1.0707	28.21	40000	0.4161	0.2787
1.0707	28.91	41000	0.4186	0.2740
1.0575	29.62	42000	0.4118	0.2845
1.0575	30.32	43000	0.4243	0.2773
1.0474	31.03	44000	0.4221	0.2707
1.0474	31.73	45000	0.4138	0.2700
1.0333	32.44	46000	0.4102	0.2638
1.0333	33.15	47000	0.4162	0.2650
1.0191	33.85	48000	0.4155	0.2636
1.0191	34.56	49000	0.4129	0.2656
1.0087	35.26	50000	0.4157	0.2632
1.0087	35.97	51000	0.4090	0.2654
0.9901	36.67	52000	0.4183	0.2587
0.9901	37.38	53000	0.4251	0.2648
0.9795	38.08	54000	0.4229	0.2555
0.9795	38.79	55000	0.4176	0.2546
0.9644	39.49	56000	0.4223	0.2513
0.9644	40.2	57000	0.4244	0.2530
0.9534	40.9	58000	0.4175	0.2538
0.9534	41.61	59000	0.4213	0.2505
0.9397	42.31	60000	0.4275	0.2565
0.9397	43.02	61000	0.4315	0.2528
0.9269	43.72	62000	0.4316	0.2501
0.9269	44.43	63000	0.4247	0.2471
0.9175	45.13	64000	0.4376	0.2469
0.9175	45.84	65000	0.4335	0.2450
0.9026	46.54	66000	0.4336	0.2452
0.9026	47.25	67000	0.4400	0.2427
0.8929	47.95	68000	0.4382	0.2429
0.8929	48.66	69000	0.4361	0.2415
0.8786	49.37	70000	0.4413	0.2398
0.8786	50.07	71000	0.4392	0.2415
0.8714	50.78	72000	0.4345	0.2406
0.8714	51.48	73000	0.4475	0.2402
0.8589	52.19	74000	0.4473	0.2374
0.8589	52.89	75000	0.4457	0.2357
0.8493	53.6	76000	0.4462	0.2366
0.8493	54.3	77000	0.4494	0.2356
0.8395	55.01	78000	0.4472	0.2352
0.8395	55.71	79000	0.4490	0.2339
0.8295	56.42	80000	0.4489	0.2318
0.8295	57.12	81000	0.4469	0.2320
0.8225	57.83	82000	0.4478	0.2321
0.8225	58.53	83000	0.4525	0.2326
0.816	59.24	84000	0.4532	0.2316
0.816	59.94	85000	0.4502	0.2318