🚀 wav2vec2-large-xls-r-300m-bg-v1
このモデルは自動音声認識を行うためのモデルです。MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットで微調整されており、評価セットで良好な結果を達成しています。
🚀 クイックスタート
このモデルは、facebook/wav2vec2-xls-r-300m をMOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットで微調整したバージョンです。評価セットでは以下の結果を達成しています。
- 損失: 0.5197
- 単語誤り率 (Wer): 0.4689
📦 インストール
インストールに関する具体的な手順は提供されていません。
💻 使用例
基本的な使用法
評価コマンドの例を以下に示します。
mozilla - foundation/common_voice_8_0 のテストスプリットで評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs
speech - recognition - community - v2/dev_data で評価する場合
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1
📚 ドキュメント
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率 (learning_rate): 7e - 05
- 学習バッチサイズ (train_batch_size): 32
- 評価バッチサイズ (eval_batch_size): 16
- シード (seed): 42
- オプティマイザ (optimizer): Adam (ベータ=(0.9, 0.999), イプシロン=1e - 08)
- 学習率スケジューラの種類 (lr_scheduler_type): 線形
- 学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 2000
- エポック数 (num_epochs): 50.0
- 混合精度学習 (mixed_precision_training): ネイティブAMP
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
単語誤り率 (Wer) |
4.3711 |
2.61 |
300 |
4.3122 |
1.0 |
3.1653 |
5.22 |
600 |
3.1156 |
1.0 |
2.8904 |
7.83 |
900 |
2.8421 |
0.9918 |
0.9207 |
10.43 |
1200 |
0.9895 |
0.8689 |
0.6384 |
13.04 |
1500 |
0.6994 |
0.7700 |
0.5215 |
15.65 |
1800 |
0.5628 |
0.6443 |
0.4573 |
18.26 |
2100 |
0.5316 |
0.6174 |
0.3875 |
20.87 |
2400 |
0.4932 |
0.5779 |
0.3562 |
23.48 |
2700 |
0.4972 |
0.5475 |
0.3218 |
26.09 |
3000 |
0.4895 |
0.5219 |
0.2954 |
28.7 |
3300 |
0.5226 |
0.5192 |
0.287 |
31.3 |
3600 |
0.4957 |
0.5146 |
0.2587 |
33.91 |
3900 |
0.4944 |
0.4893 |
0.2496 |
36.52 |
4200 |
0.4976 |
0.4895 |
0.2365 |
39.13 |
4500 |
0.5185 |
0.4819 |
0.2264 |
41.74 |
4800 |
0.5152 |
0.4776 |
0.2224 |
44.35 |
5100 |
0.5031 |
0.4746 |
0.2096 |
46.96 |
5400 |
0.5062 |
0.4708 |
0.2038 |
49.57 |
5700 |
0.5217 |
0.4698 |
フレームワークバージョン
- Transformers: 4.17.0.dev0
- Pytorch: 1.10.2+cu102
- Datasets: 1.18.2.dev0
- Tokenizers: 0.11.0
🔧 技術詳細
このモデルは、自動音声認識タスクに特化しており、MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BGデータセットを使用して微調整されています。以下に、各データセットでの評価結果を示します。
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8 |
単語誤り率 (Test WER) |
0.4709579127785184 |
自動音声認識 |
Common Voice 8 |
文字誤り率 (Test CER) |
0.10205125354383235 |
自動音声認識 |
Robust Speech Event - Dev Data |
単語誤り率 (Test WER) |
0.7053128872366791 |
自動音声認識 |
Robust Speech Event - Dev Data |
文字誤り率 (Test CER) |
0.210804311998487 |
自動音声認識 |
Robust Speech Event - Test Data |
単語誤り率 (Test WER) |
72.6 |
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。