wav2vec2-large-xls-r-300m-spanish-smallオープンソースモデル - スペイン語の音声認識を高精度で実現

ホーム

Wav2vec2 Large Xls R 300m Spanish Small

tomascufaroによって開発

wav2vec2-large-xls-r-300mアーキテクチャに基づくスペイン語音声認識モデルで、汎用音声データセットで微調整され、単語誤り率（WER）は0.1791です。

音声認識

Transformers

#スペイン語音声認識 #低い単語誤り率 #wav2vec2の微調整

ダウンロード数 13

リリース時間 : 3/2/2022

モデル概要

これはスペイン語に最適化された自動音声認識（ASR）モデルで、スペイン語の音声をテキストに変換するタスクに適しています。

モデル特徴

低い単語誤り率

評価セットで0.1791の単語誤り率（WER）を達成し、優れた性能を発揮します。

大規模事前学習

3億パラメータの大規模wav2vec2アーキテクチャに基づいており、強力な音声特徴抽出能力を持っています。

スペイン語最適化

スペイン語の音声特性に合わせて特別に微調整され、スペイン語の発音特徴に適応しています。

モデル能力

スペイン語音声認識

音声からテキストへの変換

連続音声処理

使用事例

音声文字起こし

会議記録

スペイン語の会議録音を自動的に文字記録に変換します。

精度約82％

音声アシスタント

スペイン語音声アシスタントの音声認識モジュールに使用されます。

教育

言語学習アプリ

学習者がスペイン語の発音の正確性を確認するのを支援します。

🚀 wav2vec2-large-xls-r-300m-spanish-small

このモデルは、jhonparra18/wav2vec2-large-xls-r-300m-spanish-custom を common_voice データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3763
単語誤り率 (Wer): 0.1791

📚 ドキュメント

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

属性	詳情
学習率 (learning_rate)	0.0003
トレーニングバッチサイズ (train_batch_size)	8
評価バッチサイズ (eval_batch_size)	8
シード (seed)	42
勾配累積ステップ (gradient_accumulation_steps)	2
総トレーニングバッチサイズ (total_train_batch_size)	16
オプティマイザ (optimizer)	Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラタイプ (lr_scheduler_type)	線形 (linear)
学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps)	500
エポック数 (num_epochs)	30
混合精度トレーニング (mixed_precision_training)	ネイティブAMP (Native AMP)

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2277	0.26	400	0.2601	0.2291
0.2932	0.53	800	0.2950	0.2670
0.3019	0.79	1200	0.3247	0.2766
0.2987	1.05	1600	0.3031	0.2606
0.261	1.32	2000	0.2994	0.2620
0.2651	1.58	2400	0.3134	0.2700
0.264	1.85	2800	0.3016	0.2641
0.2475	2.11	3200	0.3135	0.2661
0.2269	2.37	3600	0.3029	0.2562
0.2389	2.64	4000	0.3035	0.2549
0.2319	2.9	4400	0.3022	0.2551
0.2123	3.16	4800	0.3256	0.2638
0.2094	3.43	5200	0.3227	0.2712
0.2121	3.69	5600	0.3085	0.2596
0.207	3.96	6000	0.3041	0.2597
0.1809	4.22	6400	0.3122	0.2524
0.1846	4.48	6800	0.3254	0.2579
0.1885	4.75	7200	0.2958	0.2437
0.1923	5.01	7600	0.3136	0.2502
0.1626	5.27	8000	0.3059	0.2488
0.1704	5.54	8400	0.3082	0.2515
0.1674	5.8	8800	0.3196	0.2509
0.1691	6.06	9200	0.3193	0.25
0.1499	6.33	9600	0.3529	0.2635
0.1568	6.59	10000	0.3241	0.2481
0.1538	6.86	10400	0.3354	0.2476
0.1503	7.12	10800	0.3180	0.2402
0.136	7.38	11200	0.3230	0.2397
0.1413	7.65	11600	0.3178	0.2451
0.147	7.91	12000	0.3170	0.2389
0.1341	8.17	12400	0.3380	0.2501
0.1329	8.44	12800	0.3265	0.2414
0.1314	8.7	13200	0.3281	0.2482
0.1312	8.97	13600	0.3259	0.2539
0.12	9.23	14000	0.3291	0.2424
0.1193	9.49	14400	0.3302	0.2412
0.1189	9.76	14800	0.3376	0.2407
0.1217	10.02	15200	0.3334	0.2400
0.1118	10.28	15600	0.3359	0.2368
0.1139	10.55	16000	0.3239	0.2335
0.1106	10.81	16400	0.3374	0.2352
0.1081	11.07	16800	0.3585	0.2434
0.1063	11.34	17200	0.3639	0.2472
0.1041	11.6	17600	0.3399	0.2423
0.1062	11.87	18000	0.3410	0.2388
0.1012	12.13	18400	0.3597	0.2413
0.0953	12.39	18800	0.3440	0.2296
0.097	12.66	19200	0.3440	0.2269
0.0968	12.92	19600	0.3498	0.2333
0.0902	13.18	20000	0.3471	0.2290
0.0868	13.45	20400	0.3462	0.2266
0.0892	13.71	20800	0.3373	0.2227
0.0902	13.97	21200	0.3377	0.2240
0.0846	14.24	21600	0.3484	0.2237
0.0839	14.5	22000	0.3706	0.2260
0.0834	14.77	22400	0.3430	0.2268
0.0841	15.03	22800	0.3489	0.2259
0.076	15.29	23200	0.3626	0.2281
0.0771	15.56	23600	0.3624	0.2268
0.0773	15.82	24000	0.3440	0.2252
0.0759	16.08	24400	0.3532	0.2170
0.0745	16.35	24800	0.3686	0.2188
0.0713	16.61	25200	0.3691	0.2195
0.0718	16.88	25600	0.3470	0.2108
0.0685	17.14	26000	0.3756	0.2179
0.0689	17.4	26400	0.3542	0.2149
0.0671	17.67	26800	0.3461	0.2165
0.0737	17.93	27200	0.3473	0.2238
0.0669	18.19	27600	0.3441	0.2138
0.0629	18.46	28000	0.3721	0.2155
0.0632	18.72	28400	0.3667	0.2126
0.0647	18.98	28800	0.3579	0.2097
0.0603	19.25	29200	0.3670	0.2130
0.0604	19.51	29600	0.3750	0.2142
0.0619	19.78	30000	0.3804	0.2160
0.0603	20.04	30400	0.3764	0.2124
0.0577	20.3	30800	0.3858	0.2097
0.0583	20.57	31200	0.3520	0.2089
0.0561	20.83	31600	0.3615	0.2079
0.0545	21.09	32000	0.3824	0.2032
0.0525	21.36	32400	0.3858	0.2091
0.0524	21.62	32800	0.3956	0.2099
0.0527	21.89	33200	0.3667	0.2025
0.0514	22.15	33600	0.3708	0.2032
0.0506	22.41	34000	0.3815	0.2053
0.0478	22.68	34400	0.3671	0.2007
0.049	22.94	34800	0.3758	0.2003
0.0477	23.2	35200	0.3786	0.2014
0.045	23.47	35600	0.3732	0.1998
0.0426	23.73	36000	0.3737	0.2010
0.0444	23.99	36400	0.3600	0.1990
0.0433	24.26	36800	0.3689	0.1976
0.0442	24.52	37200	0.3787	0.1968
0.0419	24.79	37600	0.3652	0.1961
0.042	25.05	38000	0.3820	0.1964
0.0419	25.31	38400	0.3786	0.1919
0.0376	25.58	38800	0.3842	0.1934
0.0385	25.84	39200	0.3767	0.1900
0.0396	26.1	39600	0.3688	0.1888
0.0371	26.37	40000	0.3815	0.1894
0.0363	26.63	40400	0.3748	0.1878
0.0377	26.9	40800	0.3713	0.1852
0.0352	27.16	41200	0.3734	0.1851
0.0355	27.42	41600	0.3776	0.1874
0.0333	27.69	42000	0.3867	0.1841
0.0348	27.95	42400	0.3823	0.1839
0.0329	28.21	42800	0.3795	0.1822
0.0325	28.48	43200	0.3711	0.1813
0.0328	28.74	43600	0.3721	0.1781
0.0312	29.0	44000	0.3803	0.1816
0.0318	29.27	44400	0.3758	0.1794
0.0302	29.53	44800	0.3792	0.1784
0.0339	29.8	45200	0.3763	0.1791