🚀 自動語音識別模型
本模型是基於自動語音識別技術的模型,針對日語語音識別進行了優化。它在特定數據集上進行微調訓練,能夠實現高效準確的語音識別,為日語語音處理相關應用提供有力支持。
📄 許可證
本項目採用 Apache-2.0 許可證。
📚 詳細文檔
模型概述
此模型是 facebook/wav2vec2-xls-r-1b 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - JA 數據集上的微調版本。在評估集上取得了以下結果:
- 損失值(Loss):0.5500
- 詞錯誤率(Wer):1.0132
- 字符錯誤率(Cer):0.1609
模型評估結果
任務 |
數據集 |
評估指標 |
值 |
自動語音識別 |
Common Voice 8(日語) |
測試詞錯誤率(Test WER) |
95.33 |
自動語音識別 |
Common Voice 8(日語) |
測試字符錯誤率(Test CER) |
22.27 |
自動語音識別 |
Robust Speech Event - Dev Data(德語) |
測試詞錯誤率(Test WER) |
100.0 |
自動語音識別 |
Robust Speech Event - Dev Data(德語) |
測試字符錯誤率(Test CER) |
30.33 |
自動語音識別 |
Robust Speech Event - Dev Data(日語) |
測試字符錯誤率(Test CER) |
29.63 |
自動語音識別 |
Robust Speech Event - Test Data(日語) |
測試字符錯誤率(Test CER) |
32.69 |
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):32
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):128
- 優化器(optimizer):Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):1500
- 訓練輪數(num_epochs):50.0
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
字符錯誤率(Cer) |
1.7019 |
12.65 |
1000 |
1.0510 |
0.9832 |
0.2589 |
1.6385 |
25.31 |
2000 |
0.6670 |
0.9915 |
0.1851 |
1.4344 |
37.97 |
3000 |
0.6183 |
1.0213 |
0.1797 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2 + cu102
- Datasets:1.18.2.dev0
- Tokenizers:0.11.0
評估命令
- 在
mozilla - foundation/common_voice_8_0
數據集的 test
分割上進行評估:
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1b-japanese-hiragana-katakana --dataset mozilla-foundation/common_voice_8_0 --config ja --split test --log_outputs
- 在
mozilla - foundation/common_voice_8_0
數據集的 test
分割上進行評估:
python ./eval.py --model_id AndrewMcDowell/wav2vec2-xls-r-1b-japanese-hiragana-katakana --dataset speech-recognition-community-v2/dev_data --config de --split validation --chunk_length_s 5.0 --stride_length_s 1.0