🚀 wav2vec2-large-xls-r-300m-sr-v4
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SRデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.5570
- 単語誤り率 (Wer): 0.3038
🚀 クイックスタート
評価コマンド
- mozilla-foundation/common_voice_8_0のテスト分割で評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset mozilla-foundation/common_voice_8_0 --config sr --split test --log_outputs
- speech-recognition-community-v2/dev_dataで評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sr-v4 --dataset speech-recognition-community-v2/dev_data --config sr --split validation --chunk_length_s 10 --stride_length_s 1
🔧 技術詳細
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 0.0003
- 学習バッチサイズ: 16
- 評価バッチサイズ: 8
- シード: 42
- 勾配累積ステップ数: 2
- 総学習バッチサイズ: 32
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類: 線形
- 学習率スケジューラのウォームアップステップ数: 800
- エポック数: 200
- 混合精度学習: Native AMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
8.2934 |
7.5 |
300 |
2.9777 |
0.9995 |
1.5049 |
15.0 |
600 |
0.5036 |
0.4806 |
0.3263 |
22.5 |
900 |
0.5822 |
0.4055 |
0.2008 |
30.0 |
1200 |
0.5609 |
0.4032 |
0.1543 |
37.5 |
1500 |
0.5203 |
0.3710 |
0.1158 |
45.0 |
1800 |
0.6458 |
0.3985 |
0.0997 |
52.5 |
2100 |
0.6227 |
0.4013 |
0.0834 |
60.0 |
2400 |
0.6048 |
0.3836 |
0.0665 |
67.5 |
2700 |
0.6197 |
0.3686 |
0.0602 |
75.0 |
3000 |
0.5418 |
0.3453 |
0.0524 |
82.5 |
3300 |
0.5310 |
0.3486 |
0.0445 |
90.0 |
3600 |
0.5599 |
0.3374 |
0.0406 |
97.5 |
3900 |
0.5958 |
0.3327 |
0.0358 |
105.0 |
4200 |
0.6017 |
0.3262 |
0.0302 |
112.5 |
4500 |
0.5613 |
0.3248 |
0.0285 |
120.0 |
4800 |
0.5659 |
0.3462 |
0.0213 |
127.5 |
5100 |
0.5568 |
0.3206 |
0.0215 |
135.0 |
5400 |
0.6524 |
0.3472 |
0.0162 |
142.5 |
5700 |
0.6223 |
0.3458 |
0.0137 |
150.0 |
6000 |
0.6625 |
0.3313 |
0.0114 |
157.5 |
6300 |
0.5739 |
0.3336 |
0.0101 |
165.0 |
6600 |
0.5906 |
0.3285 |
0.008 |
172.5 |
6900 |
0.5982 |
0.3112 |
0.0076 |
180.0 |
7200 |
0.5399 |
0.3094 |
0.0071 |
187.5 |
7500 |
0.5387 |
0.2991 |
0.0057 |
195.0 |
7800 |
0.5570 |
0.3038 |
フレームワークバージョン
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
📚 ドキュメント
モデル情報
プロパティ |
詳細 |
モデルタイプ |
自動音声認識 (Automatic Speech Recognition) |
学習データセット |
mozilla-foundation/common_voice_8_0 |
評価結果
このモデルは以下のタスクとデータセットで評価されています。
- タスク: 自動音声認識 (Automatic Speech Recognition)
- データセット:
- Common Voice 8 (mozilla-foundation/common_voice_8_0, sr)
- Robust Speech Event - Dev Data (speech-recognition-community-v2/dev_data, sr)
- Robust Speech Event - Test Data (speech-recognition-community-v2/eval_data, sr)
評価指標
データセット |
評価指標 |
値 |
Common Voice 8 |
単語誤り率 (Wer) |
0.303313 |
Common Voice 8 |
文字誤り率 (Cer) |
0.1048951 |
Robust Speech Event - Dev Data |
単語誤り率 (Wer) |
0.9486784706184245 |
Robust Speech Event - Dev Data |
文字誤り率 (Cer) |
0.8084369606584945 |
Robust Speech Event - Test Data |
単語誤り率 (Wer) |
94.53 |