🚀 wav2vec2-large-xls-r-300m-sl-with-LM-v1
このモデルは、MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - SLデータセットでfacebook/wav2vec2-xls-r-300mをファインチューニングしたものです。評価セットでは、以下の結果を達成しています。
🚀 クイックスタート
このモデルは自動音声認識タスクに使用できます。以下のコマンドで評価を行うことができます。
✨ 主な機能
- 自動音声認識タスクに対応
- 特定のデータセットでの訓練により、高い精度を実現
📦 インストール
このモデルを使用するには、必要なライブラリをインストールする必要があります。以下のコマンドを実行してください。
pip install transformers datasets torch tokenizers
💻 使用例
基本的な使用法
以下は、このモデルを評価するためのコマンド例です。
mozilla-foundation/common_voice_8_0での評価
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset mozilla-foundation/common_voice_8_0 --config sl --split test --log_outputs
speech-recognition-community-v2/dev_dataでの評価
python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-sl-with-LM-v1 --dataset speech-recognition-community-v2/dev_data --config sl --split validation --chunk_length_s 10 --stride_length_s 1
📚 ドキュメント
評価結果
タスク |
データセット |
評価指標 |
値 |
自動音声認識 |
Common Voice 8 |
Test WER |
0.20626555409164105 |
自動音声認識 |
Common Voice 8 |
Test CER |
0.051648321634392154 |
自動音声認識 |
Common Voice 8 |
Test WER (+LM) |
0.13482652613087395 |
自動音声認識 |
Common Voice 8 |
Test CER (+LM) |
0.038838663862562475 |
自動音声認識 |
Robust Speech Event - Dev Data |
Dev WER |
0.5406156320830592 |
自動音声認識 |
Robust Speech Event - Dev Data |
Dev CER |
0.22249723590310583 |
自動音声認識 |
Robust Speech Event - Dev Data |
Dev WER (+LM) |
0.49783147459727384 |
自動音声認識 |
Robust Speech Event - Dev Data |
Dev CER (+LM) |
0.1591062599627158 |
自動音声認識 |
Robust Speech Event - Test Data |
Test WER |
46.17 |
訓練ハイパーパラメータ
- 学習率: 7.1e-05
- 訓練バッチサイズ: 32
- 評価バッチサイズ: 32
- シード: 42
- オプティマイザ: Adam (betas=(0.9,0.999), epsilon=1e-08)
- 学習率スケジューラタイプ: linear
- 学習率スケジューラウォームアップステップ: 1000
- エポック数: 100.0
- 混合精度訓練: Native AMP
訓練結果
訓練損失 |
エポック |
ステップ |
検証損失 |
Wer |
3.3881 |
6.1 |
500 |
2.9710 |
1.0 |
2.6401 |
12.2 |
1000 |
1.7677 |
0.9734 |
1.5152 |
18.29 |
1500 |
0.5564 |
0.6011 |
1.2191 |
24.39 |
2000 |
0.4319 |
0.4390 |
1.0237 |
30.49 |
2500 |
0.3141 |
0.3175 |
0.8892 |
36.59 |
3000 |
0.2748 |
0.2689 |
0.8296 |
42.68 |
3500 |
0.2680 |
0.2534 |
0.7602 |
48.78 |
4000 |
0.2820 |
0.2506 |
0.7186 |
54.88 |
4500 |
0.2672 |
0.2398 |
0.6887 |
60.98 |
5000 |
0.2729 |
0.2402 |
0.6507 |
67.07 |
5500 |
0.2767 |
0.2361 |
0.6226 |
73.17 |
6000 |
0.2817 |
0.2332 |
0.6024 |
79.27 |
6500 |
0.2679 |
0.2279 |
0.5787 |
85.37 |
7000 |
0.2837 |
0.2316 |
0.5744 |
91.46 |
7500 |
0.2838 |
0.2284 |
0.5556 |
97.56 |
8000 |
0.2763 |
0.2281 |
🔧 技術詳細
このモデルは、自動音声認識タスクに特化しており、特定のデータセットで訓練されています。訓練に使用されたハイパーパラメータや評価結果については、上記のドキュメントを参照してください。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。