🚀 XLS-R-300M Uyghur CV7
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_7_0 - UGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.1772
- 単語誤り率 (Wer): 0.2589
📚 ドキュメント
モデルの説明
モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。
モデルの語彙は、ウイグル語のペルシャ・アラビア文字のアルファベット文字からなり、句読点は削除されています。
想定される用途と制限
このモデルは、以下のような低忠実度のユースケースに役立つことが期待されます。
- ドラフト動画のキャプション
- 録音された放送のインデックス付け
このモデルは、アクセシビリティ目的でのライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはいけません。
学習と評価データ
学習データとして、Common Voiceの公式分割のtrain
とdev
の組み合わせが使用されました。公式のtest
分割は、検証データとして、また最終評価にも使用されました。
学習手順
XLS-Rモデルの特徴抽出層は凍結され、ウイグル語のCV7のサンプル文に対して最終的なCTC/LM層が調整されます。学習率は、最初の2000ステップのウォームアップフェーズを持ち、最大0.0001に達し、残りの18500ステップ(100エポック)で0に向かって冷却されます。
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
パラメータ |
値 |
学習率 (learning_rate) |
0.0001 |
学習バッチサイズ (train_batch_size) |
8 |
評価バッチサイズ (eval_batch_size) |
8 |
乱数シード (seed) |
42 |
勾配累積ステップ数 (gradient_accumulation_steps) |
4 |
総学習バッチサイズ (total_train_batch_size) |
32 |
オプティマイザ (optimizer) |
Adam (betas=(0.9,0.999), epsilon=1e-08) |
学習率スケジューラの種類 (lr_scheduler_type) |
線形 (linear) |
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps) |
2000 |
エポック数 (num_epochs) |
100.0 |
混合精度学習 (mixed_precision_training) |
ネイティブAMP (Native AMP) |
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
3.3043 |
2.73 |
500 |
3.2415 |
1.0 |
3.0482 |
5.46 |
1000 |
2.9591 |
1.0 |
1.4767 |
8.2 |
1500 |
0.4779 |
0.5777 |
1.3152 |
10.93 |
2000 |
0.3697 |
0.4938 |
1.2246 |
13.66 |
2500 |
0.3084 |
0.4459 |
1.1781 |
16.39 |
3000 |
0.2842 |
0.4154 |
1.1351 |
19.13 |
3500 |
0.2615 |
0.3929 |
1.1052 |
21.86 |
4000 |
0.2462 |
0.3747 |
1.0711 |
24.59 |
4500 |
0.2366 |
0.3652 |
1.035 |
27.32 |
5000 |
0.2268 |
0.3557 |
1.0277 |
30.05 |
5500 |
0.2243 |
0.3450 |
1.002 |
32.79 |
6000 |
0.2204 |
0.3389 |
0.9837 |
35.52 |
6500 |
0.2156 |
0.3349 |
0.9773 |
38.25 |
7000 |
0.2127 |
0.3289 |
0.9807 |
40.98 |
7500 |
0.2142 |
0.3274 |
0.9582 |
43.72 |
8000 |
0.2004 |
0.3142 |
0.9548 |
46.45 |
8500 |
0.2022 |
0.3050 |
0.9251 |
49.18 |
9000 |
0.2019 |
0.3035 |
0.9103 |
51.91 |
9500 |
0.1964 |
0.3021 |
0.915 |
54.64 |
10000 |
0.1970 |
0.3032 |
0.8962 |
57.38 |
10500 |
0.2007 |
0.3046 |
0.8729 |
60.11 |
11000 |
0.1967 |
0.2942 |
0.8744 |
62.84 |
11500 |
0.1952 |
0.2885 |
0.874 |
65.57 |
12000 |
0.1894 |
0.2895 |
0.8457 |
68.31 |
12500 |
0.1895 |
0.2828 |
0.8519 |
71.04 |
13000 |
0.1912 |
0.2875 |
0.8301 |
73.77 |
13500 |
0.1878 |
0.2760 |
0.8226 |
76.5 |
14000 |
0.1808 |
0.2701 |
0.8071 |
79.23 |
14500 |
0.1849 |
0.2741 |
0.7999 |
81.97 |
15000 |
0.1808 |
0.2717 |
0.7947 |
84.7 |
15500 |
0.1821 |
0.2716 |
0.7783 |
87.43 |
16000 |
0.1824 |
0.2661 |
0.7729 |
90.16 |
16500 |
0.1773 |
0.2639 |
0.7759 |
92.9 |
17000 |
0.1767 |
0.2629 |
0.7713 |
95.63 |
17500 |
0.1780 |
0.2621 |
0.7628 |
98.36 |
18000 |
0.1773 |
0.2594 |
フレームワークのバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.18.2.dev0
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。