xlsr-large-53-urオープンソース自動音声認識モデル - ウルドゥー語の音声内容を高精度に認識

Xlsr Large 53 Ur

HarrisDePerceptronによって開発

このモデルは、facebook/wav2vec2-large-xlsr-53をベースに、Common Voice 8.0ウルドゥー語データセットで微調整された自動音声認識モデルです。

ダウンロード数 14

リリース時間 : 3/2/2022

モデル概要

ウルドゥー語の音声をテキストに変換するタスクに使用される自動音声認識モデルで、Common Voice 8.0ウルドゥー語データセットで訓練されています。

ウルドゥー語音声認識

ウルドゥー語に特化して最適化された音声認識能力

wav2vec2アーキテクチャに基づく

facebookのwav2vec2-large-xlsr-53をベースモデルとして使用

Common Voiceデータセットで訓練

Mozilla Common Voice 8.0ウルドゥー語データセットで微調整

ウルドゥー語音声をテキストに変換

自動音声認識

音声文字起こし

ウルドゥー語音声文字起こし

ウルドゥー語の音声内容をテキストに変換

テストセットで62.47%の単語誤り率を達成

音声アシスタント

ウルドゥー語音声コマンド認識

ウルドゥー語の音声アシスタントまたは音声制御アプリに使用

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - URデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

詳細情報は後日追加予定です。

学習中に以下のハイパーパラメータが使用されました。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
10.1224	1.96	100	3.5429	1.0
3.2411	3.92	200	3.1786	1.0
3.1283	5.88	300	3.0571	1.0
3.0044	7.84	400	2.9560	0.9996
2.9388	9.8	500	2.8977	1.0011
2.86	11.76	600	2.6944	0.9952
2.5538	13.73	700	2.0967	0.9435
2.1214	15.69	800	1.4816	0.8428
1.8136	17.65	900	1.2459	0.8048
1.6795	19.61	1000	1.1232	0.7649
1.5571	21.57	1100	1.0510	0.7432
1.4975	23.53	1200	1.0298	0.6963
1.4485	25.49	1300	0.9775	0.7074
1.3924	27.45	1400	0.9798	0.6956
1.3604	29.41	1500	0.9345	0.7092
1.3224	31.37	1600	0.9535	0.6830
1.2816	33.33	1700	0.9178	0.6679
1.2623	35.29	1800	0.9249	0.6679
1.2421	37.25	1900	0.9124	0.6734
1.2208	39.22	2000	0.8962	0.6664
1.2145	41.18	2100	0.8903	0.6734
1.1888	43.14	2200	0.8883	0.6708
1.1933	45.1	2300	0.8928	0.6723
1.1838	47.06	2400	0.8868	0.6679
1.1634	49.02	2500	0.8886	0.6657