wav2vec2-large-xlsr-arabicオープンソース音声認識モデル - アラビア語音声の高精度認識をサポート

Wav2vec2 Large Xlsr Arabic Common Voice 10 Epochs

saltiによって開発

wav2vec2アーキテクチャに基づくアラビア語音声認識モデルで、Common Voiceデータセットで10エポックのトレーニングを行った。

ダウンロード数 30

リリース時間 : 3/2/2022

モデル概要

このモデルはアラビア語に最適化された自動音声認識(ASR)モデルで、Facebookのwav2vec2-large-xlsrアーキテクチャに基づき、Common Voiceアラビア語データセットでトレーニングされています。

アラビア語最適化

アラビア語音声認識タスクに特化して最適化トレーニングを行った。

wav2vec2アーキテクチャに基づく

Facebookのwav2vec2-large-xlsrアーキテクチャを採用し、強力な音声特徴抽出能力を持つ。

効率的なトレーニング

たった10エポックのトレーニングで良好な結果が得られ、検証損失は0.3581、単語誤り率は0.4555です。

アラビア語音声をテキストに変換

連続音声認識

音声特徴抽出

音声書き起こし

アラビア語音声の文字起こし

アラビア語の音声内容をテキストに変換する

単語誤り率0.4555

音声アシスタント

アラビア語音声指令認識

アラビア語音声アシスタントの基礎認識コンポーネントとして使用する

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
3.1701	0.9	400	3.1599	1.0
0.8933	1.8	800	0.7198	0.7877
0.5849	2.7	1200	0.5046	0.6253
0.3858	3.6	1600	0.4247	0.5561
0.3083	4.49	2000	0.4026	0.5251
0.2556	5.39	2400	0.4010	0.5051
0.2221	6.29	2800	0.3765	0.4861
0.2026	7.19	3200	0.3652	0.4794
0.1996	8.09	3600	0.3627	0.4660
0.1755	8.99	4000	0.3582	0.4619
0.1697	9.89	4400	0.3581	0.4555