wav2vec2-large-xls-r-300m-urdu-cv8-200epochsオープンソースモデル - ウルドゥー語の音声を高精度に識別

Wav2vec2 Large Xls R 300m Urdu Cv8 200epochs

omar47によって開発

Common Voiceデータセットでトレーニングされたウルドゥー語音声認識モデル、wav2vec 2.0アーキテクチャ採用

ダウンロード数 20

リリース時間 : 4/20/2022

モデル概要

このモデルはFacebookのwav2vec 2.0アーキテクチャでトレーニングされた大規模音声認識モデルで、ウルドゥー語に特化して最適化されています。Common Voiceデータセットで200エポックのトレーニングを行い、3億のパラメータ規模を有します。

大規模事前トレーニング

3億パラメータの大規模wav2vec 2.0アーキテクチャを基に、強力な音声特徴抽出能力を有する

ウルドゥー語最適化

ウルドゥー語に特化したトレーニングと最適化が施されており、ウルドゥー語音声認識タスクに適している

長期トレーニング

Common Voiceデータセットで200エポックの十分なトレーニングを実施

ウルドゥー語音声認識

音声からテキストへ

自動音声転写

音声転写

ウルドゥー語音声転写

ウルドゥー語音声コンテンツをテキストに変換

単語誤り率(WER)0.7723

音声アシスタント

ウルドゥー語音声アシスタント

ウルドゥー語ユーザー向け音声インタラクション機能を提供

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
0.3204	1.27	32	1.3200	0.7723
0.3021	2.55	64	1.3200	0.7723
0.3153	3.82	96	1.3200	0.7723
0.3239	5.12	128	1.3200	0.7723
0.3153	6.39	160	1.3200	0.7723
0.3202	7.67	192	1.3200	0.7723
0.3126	8.94	224	1.3200	0.7723
0.3183	10.24	256	1.3200	0.7723
0.3135	11.51	288	1.3200	0.7723
0.3137	12.78	320	1.3200	0.7723