xls-r-1b-urオープンソースウルドゥー語自動音声認識モデル - 無料でデプロイし、高精度で音声を認識

Xls R 1b Ur

HarrisDePerceptronによって開発

Facebookのwav2vec2-xls-r-1bモデルをファインチューニングしたウルドゥー語自動音声認識(ASR)モデルで、Common Voice 8.0ウルドゥー語データセットでトレーニングされています

ダウンロード数 21

リリース時間 : 3/2/2022

モデル概要

このモデルはウルドゥー語の自動音声認識タスク専用に設計されており、ウルドゥー語音声をテキストに変換できます

大規模事前学習モデルのファインチューニング

10億パラメータのwav2vec2-xls-rモデルをベースにファインチューニングされており、強力な音声特徴抽出能力を有しています

ウルドゥー語最適化

ウルドゥー語の音声特性に特化して最適化トレーニングされています

オープンソースライセンス

Apache-2.0ライセンスを採用しており、商用・研究用途での利用が可能です

ウルドゥー語音声認識

音声からテキストへの変換

ロバストな音声処理

音声文字起こし

ウルドゥー語音声から文字へ

ウルドゥー語音声コンテンツを編集可能なテキストに変換します

Common Voice 8.0テストセットで44.13%の単語誤り率を達成

音声アシスタント

ウルドゥー語音声インタラクション

ウルドゥー語音声アシスタントに音声認識機能を提供します

このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - URデータセットでfacebook/wav2vec2-xls-r-1bをファインチューニングしたものです。評価セットでは以下の結果を達成しています。

プロパティ	詳細
モデルタイプ	自動音声認識 (Automatic Speech Recognition)
タグ	automatic-speech-recognition, mozilla-foundation/common_voice_8_0, generated_from_trainer, ur, robust-speech-event, hf-asr-leaderboard
データセット	mozilla-foundation/common_voice_8_0
ライセンス	Apache-2.0

詳細情報は今後提供予定です。

詳細情報は今後提供予定です。

詳細情報は今後提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.3118	1.96	100	2.9093	0.9982
2.2071	3.92	200	1.1737	0.7779
1.6098	5.88	300	0.9984	0.7015
1.4333	7.84	400	0.9800	0.6705
1.2859	9.8	500	0.9582	0.6487
1.2073	11.76	600	0.8841	0.6077
1.1417	13.73	700	0.9118	0.6343
1.0988	15.69	800	0.9217	0.6196
1.0279	17.65	900	0.9165	0.5867
0.9765	19.61	1000	0.9306	0.5978
0.9161	21.57	1100	0.9305	0.5768
0.8395	23.53	1200	0.9828	0.5819
0.8306	25.49	1300	0.9397	0.5760
0.7819	27.45	1400	0.9544	0.5742
0.7509	29.41	1500	0.9278	0.5690
0.7218	31.37	1600	0.9003	0.5587
0.6725	33.33	1700	0.9659	0.5554
0.6287	35.29	1800	0.9522	0.5561
0.6077	37.25	1900	0.9154	0.5465
0.5873	39.22	2000	0.9331	0.5469
0.5621	41.18	2100	0.9335	0.5491
0.5168	43.14	2200	0.9632	0.5458
0.5114	45.1	2300	0.9349	0.5387
0.4986	47.06	2400	0.9364	0.5380
0.4761	49.02	2500	0.9584	0.5391