🚀 wav2vec2-large-xls-r-300m-urdu
このモデルは、音声認識のために微調整されたモデルです。facebook/wav2vec2-xls-r-300m をベースにしており、評価セットで以下の結果を達成しています。
- 損失: 0.5285
- 単語誤り率 (Wer): 0.1702
🚀 クイックスタート
このモデルは、音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。
📚 ドキュメント
モデルの説明
このモデルは facebook/wav2vec2-xls-r-300m の微調整版です。
想定される用途と制限
詳細な情報は後日提供予定です。
学習と評価データ
詳細な情報は後日提供予定です。
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.0003
- 学習バッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 勾配累積ステップ数 (gradient_accumulation_steps): 2
- 総学習バッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): linear
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
- エポック数 (num_epochs): 35
- 混合精度学習 (mixed_precision_training): Native AMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
16.9618 |
0.74 |
32 |
15.0745 |
1.0 |
9.1928 |
1.49 |
64 |
5.9361 |
1.0 |
4.9307 |
2.23 |
96 |
4.2924 |
1.0 |
3.8917 |
2.98 |
128 |
3.5873 |
1.0 |
3.3867 |
3.72 |
160 |
3.2594 |
1.0 |
3.2107 |
4.47 |
192 |
3.1718 |
1.0 |
3.1395 |
5.21 |
224 |
3.1281 |
1.0 |
3.115 |
5.95 |
256 |
3.1238 |
1.0 |
3.0801 |
6.7 |
288 |
3.0674 |
1.0 |
2.9725 |
7.44 |
320 |
2.8277 |
1.0 |
2.4159 |
8.19 |
352 |
1.7186 |
0.9036 |
1.3377 |
8.93 |
384 |
1.0271 |
0.6433 |
0.8591 |
9.67 |
416 |
0.8087 |
0.5441 |
0.726 |
10.42 |
448 |
0.7263 |
0.4634 |
0.6242 |
11.16 |
480 |
0.6783 |
0.4156 |
0.5417 |
11.91 |
512 |
0.6611 |
0.4305 |
0.4784 |
12.65 |
544 |
0.6300 |
0.3926 |
0.4198 |
13.4 |
576 |
0.5646 |
0.3499 |
0.3798 |
14.14 |
608 |
0.5919 |
0.3229 |
0.3356 |
14.88 |
640 |
0.5715 |
0.3369 |
0.2954 |
15.63 |
672 |
0.5325 |
0.2728 |
0.264 |
16.37 |
704 |
0.5535 |
0.2689 |
0.2535 |
17.12 |
736 |
0.5467 |
0.2366 |
0.2277 |
17.86 |
768 |
0.5219 |
0.2345 |
0.2141 |
18.6 |
800 |
0.5314 |
0.2487 |
0.2036 |
19.35 |
832 |
0.5382 |
0.2236 |
0.2021 |
20.09 |
864 |
0.5038 |
0.1922 |
0.1676 |
20.84 |
896 |
0.5238 |
0.2033 |
0.1544 |
21.58 |
928 |
0.5069 |
0.1866 |
0.1512 |
22.33 |
960 |
0.5045 |
0.1965 |
0.1512 |
23.07 |
992 |
0.5167 |
0.1862 |
0.1399 |
23.81 |
1024 |
0.5236 |
0.1840 |
0.1291 |
24.56 |
1056 |
0.5234 |
0.1957 |
0.1274 |
25.3 |
1088 |
0.5348 |
0.1943 |
0.127 |
26.05 |
1120 |
0.4978 |
0.1719 |
0.1105 |
26.79 |
1152 |
0.5067 |
0.1767 |
0.1069 |
27.53 |
1184 |
0.5150 |
0.1758 |
0.1058 |
28.28 |
1216 |
0.5218 |
0.1844 |
0.0999 |
29.02 |
1248 |
0.5375 |
0.1852 |
0.0964 |
29.77 |
1280 |
0.5373 |
0.1843 |
0.0971 |
30.51 |
1312 |
0.5190 |
0.1776 |
0.0906 |
31.26 |
1344 |
0.5217 |
0.1747 |
0.0909 |
32.0 |
1376 |
0.5204 |
0.1778 |
0.0784 |
32.74 |
1408 |
0.5336 |
0.1756 |
0.0823 |
33.49 |
1440 |
0.5281 |
0.1699 |
0.0834 |
34.23 |
1472 |
0.5292 |
0.1700 |
0.0827 |
34.98 |
1504 |
0.5285 |
0.1702 |
フレームワークのバージョン
- Transformers 4.18.0
- Pytorch 1.11.0+cu113
- Datasets 2.1.0
- Tokenizers 0.12.1
📄 ライセンス
このモデルは Apache-2.0 ライセンスの下で提供されています。