wav2vec2-large-xls-r-300m-urduオープンソースモデル - 無料でデプロイ可能な高精度ウルドゥー語音声認識

ホーム

Wav2vec2 Large Xls R 300m Urdu

omar47によって開発

このモデルはfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンで、ウルドゥー語音声認識タスクに特化して最適化されています。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #ウルドゥー語音声認識 #低単語誤り率 #大規模モデルのファインチューニング

ダウンロード数 27

リリース時間 : 4/29/2022

モデル概要

これはウルドゥー語音声認識のための自動音声認識(ASR)モデルで、wav2vec2-xls-r-300mアーキテクチャを基にファインチューニングされ、評価セットで17.02%の単語誤り率(WER)を達成しました。

モデル特徴

ウルドゥー語最適化

ウルドゥー語の音声特性に特化してファインチューニングされ、認識精度が向上しています

低単語誤り率

評価セットで17.02%の単語誤り率(WER)を達成しました

大規模モデルベースのファインチューニング

facebook/wav2vec2-xls-r-300m大規模モデルを基にファインチューニングされており、強力な音声特徴抽出能力を継承しています

モデル能力

ウルドゥー語音声認識

音声からテキストへの変換

音声文字起こし

使用事例

音声文字起こし

ウルドゥー語会議議事録

ウルドゥー語の会議録音を自動的に文字起こし

約83%の精度

音声アシスタント

ウルドゥー語音声アシスタントアプリケーション向けの音声認識コンポーネント

教育

言語学習アプリ

学習者がウルドゥー語の発音を練習し、フィードバックを受けられるように支援

🚀 wav2vec2-large-xls-r-300m-urdu

このモデルは、音声認識のために微調整されたモデルです。facebook/wav2vec2-xls-r-300m をベースにしており、評価セットで以下の結果を達成しています。

損失: 0.5285
単語誤り率 (Wer): 0.1702

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

📚 ドキュメント

モデルの説明

このモデルは facebook/wav2vec2-xls-r-300m の微調整版です。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 0.0003
学習バッチサイズ (train_batch_size): 16
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 35
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
16.9618	0.74	32	15.0745	1.0
9.1928	1.49	64	5.9361	1.0
4.9307	2.23	96	4.2924	1.0
3.8917	2.98	128	3.5873	1.0
3.3867	3.72	160	3.2594	1.0
3.2107	4.47	192	3.1718	1.0
3.1395	5.21	224	3.1281	1.0
3.115	5.95	256	3.1238	1.0
3.0801	6.7	288	3.0674	1.0
2.9725	7.44	320	2.8277	1.0
2.4159	8.19	352	1.7186	0.9036
1.3377	8.93	384	1.0271	0.6433
0.8591	9.67	416	0.8087	0.5441
0.726	10.42	448	0.7263	0.4634
0.6242	11.16	480	0.6783	0.4156
0.5417	11.91	512	0.6611	0.4305
0.4784	12.65	544	0.6300	0.3926
0.4198	13.4	576	0.5646	0.3499
0.3798	14.14	608	0.5919	0.3229
0.3356	14.88	640	0.5715	0.3369
0.2954	15.63	672	0.5325	0.2728
0.264	16.37	704	0.5535	0.2689
0.2535	17.12	736	0.5467	0.2366
0.2277	17.86	768	0.5219	0.2345
0.2141	18.6	800	0.5314	0.2487
0.2036	19.35	832	0.5382	0.2236
0.2021	20.09	864	0.5038	0.1922
0.1676	20.84	896	0.5238	0.2033
0.1544	21.58	928	0.5069	0.1866
0.1512	22.33	960	0.5045	0.1965
0.1512	23.07	992	0.5167	0.1862
0.1399	23.81	1024	0.5236	0.1840
0.1291	24.56	1056	0.5234	0.1957
0.1274	25.3	1088	0.5348	0.1943
0.127	26.05	1120	0.4978	0.1719
0.1105	26.79	1152	0.5067	0.1767
0.1069	27.53	1184	0.5150	0.1758
0.1058	28.28	1216	0.5218	0.1844
0.0999	29.02	1248	0.5375	0.1852
0.0964	29.77	1280	0.5373	0.1843
0.0971	30.51	1312	0.5190	0.1776
0.0906	31.26	1344	0.5217	0.1747
0.0909	32.0	1376	0.5204	0.1778
0.0784	32.74	1408	0.5336	0.1756
0.0823	33.49	1440	0.5281	0.1699
0.0834	34.23	1472	0.5292	0.1700
0.0827	34.98	1504	0.5285	0.1702