🚀 XLS-R-300M Uyghur CV8
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - UGデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。
評価セットでは以下の結果を達成しています。
- 損失: 0.2026
- 単語誤り率 (Wer): 0.3248
📚 ドキュメント
モデルの説明
モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。
モデルの語彙は、ウイグル語のペルシャ・アラビア文字のアルファベット文字で構成されており、句読点は削除されています。
想定される用途と制限
このモデルは、以下のような低品質な使用ケースに役立つと考えられます。
- ドラフト動画のキャプション
- 録音された放送のインデックス作成
このモデルは、アクセシビリティ目的のライブキャプションの代替として使用するには十分な信頼性がなく、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはなりません。
学習と評価データ
学習データとして、Common Voiceの公式分割のtrain
とdev
の組み合わせが使用されました。公式のtest
分割は、検証データとして、また最終評価にも使用されました。
学習手順
XLS - Rモデルの特徴抽出層は凍結され、ウイグル語のCV8の例文に対して最終的なCTC/LM層が調整されます。学習率は、初期のウォームアップフェーズ2000ステップで最大0.0001まで上昇し、残りの9400ステップ(100エポック)で0に向かって冷却されます。
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
パラメータ |
値 |
学習率 (learning_rate) |
0.0001 |
学習バッチサイズ (train_batch_size) |
16 |
評価バッチサイズ (eval_batch_size) |
8 |
乱数シード (seed) |
42 |
勾配累積ステップ (gradient_accumulation_steps) |
4 |
総学習バッチサイズ (total_train_batch_size) |
64 |
オプティマイザ (optimizer) |
Adam (betas=(0.9,0.999), epsilon=1e - 08) |
学習率スケジューラのタイプ (lr_scheduler_type) |
線形 (linear) |
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps) |
2000 |
エポック数 (num_epochs) |
100.0 |
混合精度学習 (mixed_precision_training) |
ネイティブAMP (Native AMP) |
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
3.3036 |
5.32 |
500 |
3.2628 |
1.0 |
2.9734 |
10.63 |
1000 |
2.5677 |
0.9980 |
1.3466 |
15.95 |
1500 |
0.4455 |
0.6306 |
1.2424 |
21.28 |
2000 |
0.3603 |
0.5301 |
1.1655 |
26.59 |
2500 |
0.3165 |
0.4740 |
1.1026 |
31.91 |
3000 |
0.2930 |
0.4400 |
1.0655 |
37.23 |
3500 |
0.2675 |
0.4159 |
1.0239 |
42.55 |
4000 |
0.2580 |
0.3913 |
0.9938 |
47.87 |
4500 |
0.2373 |
0.3698 |
0.9655 |
53.19 |
5000 |
0.2379 |
0.3675 |
0.9374 |
58.51 |
5500 |
0.2486 |
0.3795 |
0.9065 |
63.83 |
6000 |
0.2243 |
0.3405 |
0.888 |
69.15 |
6500 |
0.2157 |
0.3277 |
0.8646 |
74.47 |
7000 |
0.2103 |
0.3288 |
0.8602 |
79.78 |
7500 |
0.2088 |
0.3238 |
0.8442 |
85.11 |
8000 |
0.2045 |
0.3266 |
0.8335 |
90.42 |
8500 |
0.2038 |
0.3241 |
0.8288 |
95.74 |
9000 |
0.2024 |
0.3280 |
フレームワークのバージョン
- Transformers 4.17.0.dev0
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。