🚀 XLS-R-300M Uzbek CV8
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - UZデータセット上でfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。検証セットでは以下の結果を達成しています。
- 損失: 0.3063
- 単語誤り率 (Wer): 0.3852
- 文字誤り率 (Cer): 0.0777
✨ 主な機能
🔍 モデルの説明
モデルアーキテクチャの説明については、facebook/wav2vec2-xls-r-300mを参照してください。
モデルの語彙は、句読点を除いたウズベク語の現代ラテン文字で構成されています。ただし、<‘>と<’>は句読点とはみなされません。<‘>は<o>と<g>を修飾し、<’>は声門閉鎖音または長母音を示します。
デコーダは、common_voiceのテキストに基づいて構築されたkenlm言語モデルを使用しています。
🎯 想定される用途と制限
このモデルは、以下のような低忠実度のユースケースに役立つことが期待されます。
- ドラフト動画のキャプション
- 録画された放送のインデックス作成
ただし、このモデルはアクセシビリティ目的のライブキャプションの代替として使用するには十分な信頼性がありません。また、Common Voiceデータセットの貢献者や他の話者のプライバシーを侵害するような方法で使用してはいけません。
📊 学習と評価データ
学習データとして、train
コモンボイスの公式分割の50%が使用されました。検証データとして、公式dev
分割の50%が使用され、完全なtest
セットがLMなしのモデルの最終評価に使用されました。一方、LM付きのモデルは、test
セットから500のサンプルのみで評価されました。
kenlm言語モデルは、学習データセットとその他のデータセット分割のターゲット文からコンパイルされました。
学習ハイパーパラメータ
学習中に以下のハイパーパラメータが使用されました。
- 学習率: 3e-05
- 学習バッチサイズ: 32
- 評価バッチサイズ: 8
- シード: 42
- 勾配累積ステップ: 4
- 総学習バッチサイズ: 128
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラのタイプ: 線形
- 学習率スケジューラのウォームアップステップ: 500
- エポック数: 100.0
- 混合精度学習: Native AMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
文字誤り率 (Cer) |
3.1401 |
3.25 |
500 |
3.1146 |
1.0 |
1.0 |
2.7484 |
6.49 |
1000 |
2.2842 |
1.0065 |
0.7069 |
1.0899 |
9.74 |
1500 |
0.5414 |
0.6125 |
0.1351 |
0.9465 |
12.99 |
2000 |
0.4566 |
0.5635 |
0.1223 |
0.8771 |
16.23 |
2500 |
0.4212 |
0.5366 |
0.1161 |
0.8346 |
19.48 |
3000 |
0.3994 |
0.5144 |
0.1102 |
0.8127 |
22.73 |
3500 |
0.3819 |
0.4944 |
0.1051 |
0.7833 |
25.97 |
4000 |
0.3705 |
0.4798 |
0.1011 |
0.7603 |
29.22 |
4500 |
0.3661 |
0.4704 |
0.0992 |
0.7424 |
32.47 |
5000 |
0.3529 |
0.4577 |
0.0957 |
0.7251 |
35.71 |
5500 |
0.3410 |
0.4473 |
0.0928 |
0.7106 |
38.96 |
6000 |
0.3401 |
0.4428 |
0.0919 |
0.7027 |
42.21 |
6500 |
0.3355 |
0.4353 |
0.0905 |
0.6927 |
45.45 |
7000 |
0.3308 |
0.4296 |
0.0885 |
0.6828 |
48.7 |
7500 |
0.3246 |
0.4204 |
0.0863 |
0.6706 |
51.95 |
8000 |
0.3250 |
0.4233 |
0.0868 |
0.6629 |
55.19 |
8500 |
0.3264 |
0.4159 |
0.0849 |
0.6556 |
58.44 |
9000 |
0.3213 |
0.4100 |
0.0835 |
0.6484 |
61.69 |
9500 |
0.3182 |
0.4124 |
0.0837 |
0.6407 |
64.93 |
10000 |
0.3171 |
0.4050 |
0.0825 |
0.6375 |
68.18 |
10500 |
0.3150 |
0.4039 |
0.0822 |
0.6363 |
71.43 |
11000 |
0.3129 |
0.3991 |
0.0810 |
0.6307 |
74.67 |
11500 |
0.3114 |
0.3986 |
0.0807 |
0.6232 |
77.92 |
12000 |
0.3103 |
0.3895 |
0.0790 |
0.6216 |
81.17 |
12500 |
0.3086 |
0.3891 |
0.0790 |
0.6174 |
84.41 |
13000 |
0.3082 |
0.3881 |
0.0785 |
0.6196 |
87.66 |
13500 |
0.3059 |
0.3875 |
0.0782 |
0.6174 |
90.91 |
14000 |
0.3084 |
0.3862 |
0.0780 |
0.6169 |
94.16 |
14500 |
0.3070 |
0.3860 |
0.0779 |
0.6166 |
97.4 |
15000 |
0.3066 |
0.3855 |
0.0778 |
フレームワークバージョン
- Transformers 4.16.2
- Pytorch 1.10.2+cu102
- Datasets 1.18.3
- Tokenizers 0.11.0
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。