my_final_wav2vec2-urdu-asr-projectオープンソースモデル - ウルドゥー語の音声を高精度に識別し変換する支援

My Final Wav2vec2 Urdu Asr Project

Raffayによって開発

これはwav2vec2アーキテクチャに基づくウルドゥー語自動音声認識(ASR)モデルで、ゼロからトレーニングされています。

ダウンロード数 24

リリース時間 : 5/1/2022

モデル概要

このモデルはウルドゥー語の音声認識タスクに使用され、ウルドゥー語音声をテキストに変換できます。

ウルドゥー語音声認識

ウルドゥー語に特化して最適化された音声認識能力

wav2vec2アーキテクチャ

先進的なwav2vec2アーキテクチャを使用した音声特徴学習

ウルドゥー語音声テキスト変換

連続音声認識

音声文字起こし

ウルドゥー語会議議事録

ウルドゥー語会議録音を自動的に文字記録に変換

音声アシスタント

ウルドゥー語ユーザー向け音声インタラクション機能を提供

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
7.8981	1.41	200	5.5809	1.0
5.254	2.82	400	5.4720	1.0
5.2209	4.23	600	5.4862	1.0
5.256	5.63	800	5.4716	1.0
5.1244	7.04	1000	5.4912	1.0
5.0641	8.45	1200	5.4797	1.0
5.0923	9.86	1400	5.5290	1.0
5.0166	11.27	1600	5.4722	1.0
5.1251	12.68	1800	5.4690	1.0
5.0201	14.08	2000	5.4684	1.0
5.1285	15.49	2200	5.4745	1.0
5.0853	16.9	2400	5.4734	1.0
5.0112	18.31	2600	5.4668	1.0
5.0372	19.72	2800	5.4680	1.0