🚀 xls-r-1B-te
このモデルは、自動音声認識タスクに特化したモデルです。OPENSLR_SLR66 - NAデータセットで微調整され、高い精度を達成しています。
🚀 クイックスタート
このモデルは、facebook/wav2vec2-xls-r-1b をOPENSLR_SLR66 - NAデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.3119
- 単語誤り率 (Wer): 0.2613
評価指標
指標 |
分割 |
LMを使用したデコード |
値 |
WER |
トレーニング |
いいえ |
5.36 |
CER |
トレーニング |
いいえ |
1.11 |
WER |
テスト |
いいえ |
26.14 |
CER |
テスト |
いいえ |
4.93 |
WER |
トレーニング |
はい |
5.04 |
CER |
トレーニング |
はい |
1.07 |
WER |
テスト |
はい |
20.69 |
CER |
テスト |
はい |
3.986 |
📚 ドキュメント
モデル情報
プロパティ |
詳細 |
モデルタイプ |
自動音声認識 |
トレーニングデータ |
openslr、SLR66 |
メトリクス |
wer、cer |
モデルの結果
名前 |
タスク |
データセット |
メトリクス |
値 |
xls-r-1B-te |
自動音声認識 |
Open SLR (SLR66) |
Test WER |
20.624 |
xls-r-1B-te |
自動音声認識 |
Open SLR (SLR66) |
Test CER |
3.979 |
xls-r-1B-te |
自動音声認識 |
Open SLR (SLR66) |
Test WER (without LM) |
26.14777618364419 |
xls-r-1B-te |
自動音声認識 |
Open SLR (SLR66) |
Test CER (without LM) |
4.932543184970369 |
🔧 技術詳細
トレーニングハイパーパラメータ
トレーニング中に以下のハイパーパラメータが使用されました。
- 学習率 (learning_rate): 2e-05
- トレーニングバッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 4
- シード (seed): 42
- 勾配累積ステップ (gradient_accumulation_steps): 2
- 総トレーニングバッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラタイプ (lr_scheduler_type): 線形
- 学習率スケジューラウォームアップステップ (lr_scheduler_warmup_steps): 2000
- エポック数 (num_epochs): 150.0
- 混合精度トレーニング (mixed_precision_training): Native AMP
トレーニング結果
トレーニング損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
2.9038 |
4.8 |
500 |
3.0125 |
1.0 |
1.3777 |
9.61 |
1000 |
0.8681 |
0.8753 |
1.1436 |
14.42 |
1500 |
0.6256 |
0.7961 |
1.0997 |
19.23 |
2000 |
0.5244 |
0.6875 |
1.0363 |
24.04 |
2500 |
0.4585 |
0.6276 |
0.7996 |
28.84 |
3000 |
0.4072 |
0.5295 |
0.825 |
33.65 |
3500 |
0.3590 |
0.5222 |
0.8018 |
38.46 |
4000 |
0.3678 |
0.4671 |
0.7545 |
43.27 |
4500 |
0.3474 |
0.3962 |
0.7375 |
48.08 |
5000 |
0.3224 |
0.3869 |
0.6198 |
52.88 |
5500 |
0.3233 |
0.3630 |
0.6608 |
57.69 |
6000 |
0.3029 |
0.3308 |
0.645 |
62.5 |
6500 |
0.3195 |
0.3722 |
0.5249 |
67.31 |
7000 |
0.3004 |
0.3202 |
0.4875 |
72.11 |
7500 |
0.2826 |
0.2992 |
0.5171 |
76.92 |
8000 |
0.2962 |
0.2976 |
0.4974 |
81.73 |
8500 |
0.2990 |
0.2933 |
0.4387 |
86.54 |
9000 |
0.2834 |
0.2755 |
0.4511 |
91.34 |
9500 |
0.2886 |
0.2787 |
0.4112 |
96.15 |
10000 |
0.3093 |
0.2976 |
0.4064 |
100.96 |
10500 |
0.3123 |
0.2863 |
0.4047 |
105.77 |
11000 |
0.2968 |
0.2719 |
0.3519 |
110.57 |
11500 |
0.3106 |
0.2832 |
0.3719 |
115.38 |
12000 |
0.3030 |
0.2737 |
0.3669 |
120.19 |
12500 |
0.2964 |
0.2714 |
0.3386 |
125.0 |
13000 |
0.3101 |
0.2714 |
0.3137 |
129.8 |
13500 |
0.3063 |
0.2710 |
0.3008 |
134.61 |
14000 |
0.3082 |
0.2617 |
0.301 |
139.42 |
14500 |
0.3121 |
0.2628 |
0.3291 |
144.23 |
15000 |
0.3105 |
0.2612 |
0.3133 |
149.04 |
15500 |
0.3114 |
0.2624 |
フレームワークバージョン
- Transformers 4.16.0.dev0
- Pytorch 1.10.1+cu102
- Datasets 1.17.1.dev0
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。