🚀 wav2vec2-large-xls-r-300m-hsb-v3
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSBデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.6549
- 単語誤り率 (Wer): 0.4827
✨ 主な機能
- 自動音声認識 (Automatic Speech Recognition) タスクに対応
- 上ソルビア語 (hsb) の音声認識に特化
📦 インストール
インストールに関する具体的な手順は提供されていません。
💻 使用例
評価コマンド
基本的な使用法
mozilla-foundation/common_voice_8_0のテストスプリットで評価するには、以下のコマンドを実行します。
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-hsb-v3 --dataset mozilla-foundation/common_voice_8_0 --config hsb --split test --log_outputs
高度な使用法
speech-recognition-community-v2/dev_dataで評価する場合、上ソルビア語 (hsb) はspeech-recognition-community-v2/dev_dataに見つかりません。
📚 ドキュメント
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 0.00045
- 学習バッチサイズ (train_batch_size): 16
- 評価バッチサイズ (eval_batch_size): 8
- 乱数シード (seed): 42
- 勾配累積ステップ数 (gradient_accumulation_steps): 2
- 総学習バッチサイズ (total_train_batch_size): 32
- オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
- 学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
- エポック数 (num_epochs): 50
- 混合精度学習 (mixed_precision_training): Native AMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
8.8951 |
3.23 |
100 |
3.6396 |
1.0 |
3.314 |
6.45 |
200 |
3.2331 |
1.0 |
3.1931 |
9.68 |
300 |
3.0947 |
0.9906 |
1.7079 |
12.9 |
400 |
0.8865 |
0.8499 |
0.6859 |
16.13 |
500 |
0.7994 |
0.7529 |
0.4804 |
19.35 |
600 |
0.7783 |
0.7069 |
0.3506 |
22.58 |
700 |
0.6904 |
0.6321 |
0.2695 |
25.81 |
800 |
0.6519 |
0.5926 |
0.222 |
29.03 |
900 |
0.7041 |
0.5720 |
0.1828 |
32.26 |
1000 |
0.6608 |
0.5513 |
0.1474 |
35.48 |
1100 |
0.7129 |
0.5319 |
0.1269 |
38.71 |
1200 |
0.6664 |
0.5056 |
0.1077 |
41.94 |
1300 |
0.6712 |
0.4942 |
0.0934 |
45.16 |
1400 |
0.6467 |
0.4879 |
0.0819 |
48.39 |
1500 |
0.6549 |
0.4827 |
フレームワークバージョン
- Transformers 4.16.1
- Pytorch 1.10.0+cu111
- Datasets 1.18.2
- Tokenizers 0.11.0
📄 ライセンス
このモデルはApache-2.0ライセンスの下で提供されています。
🔧 技術詳細
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - HSBデータセットを使用して、facebook/wav2vec2-xls-r-300mをファインチューニングしています。評価セットでは、損失が0.6549、単語誤り率 (Wer) が0.4827という結果を達成しています。
評価結果
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8 |
テスト単語誤り率 (Test WER) |
0.4763681592039801 |
自動音声認識 |
Common Voice 8 |
テスト文字誤り率 (Test CER) |
0.11194945177476305 |
自動音声認識 |
Robust Speech Event - Dev Data |
テスト単語誤り率 (Test WER) |
NA |
自動音声認識 |
Robust Speech Event - Dev Data |
テスト文字誤り率 (Test CER) |
NA |