🚀 wav2vec2-large-xls-r-300m-bg-d2
このモデルは、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットでfacebook/wav2vec2 - xls - r - 300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.3421
- 単語誤り率 (Wer): 0.2860
✨ 主な機能
- 自動音声認識 (Automatic Speech Recognition) タスクに特化したモデルです。
- ブルガリア語 (bg) の音声データに対応しています。
📦 インストール
このREADMEには具体的なインストール手順が記載されていないため、このセクションは省略されます。
💻 使用例
このREADMEには具体的なコード例が記載されていないため、このセクションは省略されます。
📚 ドキュメント
評価コマンド
- mozilla - foundation/common_voice_8_0のテスト分割で評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-d2 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs
- speech - recognition - community - v2/dev_dataで評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-d2 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.00025
- 学習バッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 勾配累積ステップ数 (gradient_accumulation_steps): 2
- 総学習バッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam (betas=(0.9, 0.999), epsilon=1e - 08)
- 学習率スケジューラの種類 (lr_scheduler_type): linear
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 700
- エポック数 (num_epochs): 35
- 混合精度学習 (mixed_precision_training): Native AMP
学習結果
学習損失 (Training Loss) |
エポック (Epoch) |
ステップ (Step) |
検証損失 (Validation Loss) |
単語誤り率 (Wer) |
6.8791 |
1.74 |
200 |
3.1902 |
1.0 |
3.0441 |
3.48 |
400 |
2.8098 |
0.9864 |
1.1499 |
5.22 |
600 |
0.4668 |
0.5014 |
0.4968 |
6.96 |
800 |
0.4162 |
0.4472 |
0.3553 |
8.7 |
1000 |
0.3580 |
0.3777 |
0.3027 |
10.43 |
1200 |
0.3422 |
0.3506 |
0.2562 |
12.17 |
1400 |
0.3556 |
0.3639 |
0.2272 |
13.91 |
1600 |
0.3621 |
0.3583 |
0.2125 |
15.65 |
1800 |
0.3436 |
0.3358 |
0.1904 |
17.39 |
2000 |
0.3650 |
0.3545 |
0.1695 |
19.13 |
2200 |
0.3366 |
0.3241 |
0.1532 |
20.87 |
2400 |
0.3550 |
0.3311 |
0.1453 |
22.61 |
2600 |
0.3582 |
0.3131 |
0.1359 |
24.35 |
2800 |
0.3524 |
0.3084 |
0.1233 |
26.09 |
3000 |
0.3503 |
0.2973 |
0.1114 |
27.83 |
3200 |
0.3434 |
0.2946 |
0.1051 |
29.57 |
3400 |
0.3474 |
0.2956 |
0.0965 |
31.3 |
3600 |
0.3426 |
0.2907 |
0.0923 |
33.04 |
3800 |
0.3478 |
0.2894 |
0.0894 |
34.78 |
4000 |
0.3421 |
0.2860 |
フレームワークのバージョン
- Transformers 4.16.2
- Pytorch 1.10.0+cu111
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術詳細
このモデルの技術的な詳細については、以下の表にまとめています。
属性 |
詳細 |
モデルタイプ |
自動音声認識 (Automatic Speech Recognition) |
学習データ |
mozilla - foundation/common_voice_8_0 |
モデルの評価結果
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8 (bg) |
テスト単語誤り率 (Test WER) |
0.28775471338792613 |
自動音声認識 |
Common Voice 8 (bg) |
テスト文字誤り率 (Test CER) |
0.06861971204625049 |
自動音声認識 |
Robust Speech Event - Dev Data (bg) |
テスト単語誤り率 (Test WER) |
0.49783147459727384 |
自動音声認識 |
Robust Speech Event - Dev Data (bg) |
テスト文字誤り率 (Test CER) |
0.1591062599627158 |
自動音声認識 |
Robust Speech Event - Test Data (bg) |
テスト単語誤り率 (Test WER) |
51.25 |
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。