wav2vec2-xls-r-1b-arabicオープンソースモデル - アラビア語音声の高精度な文字変換をサポート

Wav2vec2 Xls R 1b Arabic

AndrewMcDowellによって開発

このモデルは、facebook/wav2vec2-xls-r-1bをMozilla Common Voice 8.0アラビア語データセットでファインチューニングした自動音声認識モデルで、アラビア語音声からテキストへの変換タスクをサポートします。

ダウンロード数 20

リリース時間 : 3/2/2022

モデル概要

これはアラビア語に最適化された自動音声認識(ASR)モデルで、アラビア語音声をテキストに変換できます。モデルはCommon Voice 8.0アラビア語評価セットで0.8607の単語誤り率(WER)を達成しました。

大規模事前学習

10億パラメータのwav2vec2-xls-r-1bモデルをベースにファインチューニングされており、強力な音声特徴抽出能力を備えています

アラビア語最適化

アラビア語の音声特性に特化して最適化されており、Common Voiceアラビア語データセットで良好な性能を発揮します

オープンソースライセンス

Apache 2.0ライセンスを採用しており、商業利用や研究用途が可能です

アラビア語音声認識

音声からテキストへの変換

リアルタイム音声処理

音声文字起こし

アラビア語音声のテキスト化

アラビア語音声コンテンツをテキスト形式に変換

単語誤り率0.8607

音声アシスタント

アラビア語音声コマンド認識

アラビア語音声アシスタントやスマートホーム制御に使用

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - ARデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、自動音声認識タスクに使用できます。詳細な使用方法は、Hugging Faceのドキュメントを参照してください。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.2416	0.84	500	1.2867	0.8875
2.3089	1.67	1000	1.8336	0.9548
2.3614	2.51	1500	1.5937	0.9469
2.5234	3.35	2000	1.9765	0.9867
2.5373	4.19	2500	1.9062	0.9916
2.5703	5.03	3000	1.9772	0.9915
2.4656	5.86	3500	1.8083	0.9829
2.4339	6.7	4000	1.7548	0.9752
2.344	7.54	4500	1.6146	0.9638
2.2677	8.38	5000	1.5105	0.9499
2.2074	9.21	5500	1.4191	0.9357
2.3768	10.05	6000	1.6663	0.9665
2.3804	10.89	6500	1.6571	0.9720
2.3237	11.72	7000	1.6049	0.9637
2.317	12.56	7500	1.5875	0.9655
2.2988	13.4	8000	1.5357	0.9603
2.2906	14.24	8500	1.5637	0.9592
2.2848	15.08	9000	1.5326	0.9537
2.2381	15.91	9500	1.5631	0.9508
2.2072	16.75	10000	1.4565	0.9395
2.197	17.59	10500	1.4304	0.9406
2.198	18.43	11000	1.4230	0.9382
2.1668	19.26	11500	1.3998	0.9315
2.1498	20.1	12000	1.3920	0.9258
2.1244	20.94	12500	1.3584	0.9153
2.0953	21.78	13000	1.3274	0.9054
2.0762	22.61	13500	1.2933	0.9073
2.0587	23.45	14000	1.2516	0.8944
2.0363	24.29	14500	1.2214	0.8902
2.0302	25.13	15000	1.2087	0.8871
2.0071	25.96	15500	1.1953	0.8786
1.9882	26.8	16000	1.1738	0.8712
1.9772	27.64	16500	1.1647	0.8672
1.9585	28.48	17000	1.1459	0.8635
1.944	29.31	17500	1.1414	0.8616