🚀 XLS - R - 1B - 法語語音識別模型
本項目是一個基於微調的自動語音識別模型,在法語語音數據集上進行訓練,可有效識別法語語音內容,在多個語音數據集上有良好的表現。
🚀 快速開始
評估命令
- 在
mozilla - foundation/common_voice_8
的 test
分割集上進行評估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset mozilla-foundation/common_voice_8_0 --config fr --split test
- 在
speech - recognition - community - v2/dev_data
上進行評估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
✨ 主要特性
- 基於
facebook/wav2vec2 - xls - r - 1b
模型進行微調,在法語語音識別任務上有良好表現。
- 支持使用語言模型(LM)進行評估,能有效降低詞錯誤率(WER)和字符錯誤率(CER)。
📚 詳細文檔
模型描述
此模型是 [facebook/wav2vec2 - xls - r - 1b](https://huggingface.co/facebook/wav2vec2 - xls - r - 1b) 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - FR 數據集上的微調版本。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):16
- 評估批次大小(eval_batch_size):16
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):8
- 總訓練批次大小(total_train_batch_size):128
- 優化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):6.0
- 混合精度訓練(mixed_precision_training):Native AMP
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
0.9827 |
0.29 |
1000 |
inf |
0.2937 |
1.0203 |
0.57 |
2000 |
inf |
0.2711 |
1.0048 |
0.86 |
3000 |
inf |
0.2620 |
0.9858 |
1.15 |
4000 |
inf |
0.2522 |
0.9709 |
1.43 |
5000 |
inf |
0.2365 |
0.9347 |
1.72 |
6000 |
inf |
0.2332 |
0.9256 |
2.01 |
7000 |
inf |
0.2261 |
0.8936 |
2.29 |
8000 |
inf |
0.2203 |
0.877 |
2.58 |
9000 |
inf |
0.2096 |
0.8393 |
2.87 |
10000 |
inf |
0.2017 |
0.8156 |
3.15 |
11000 |
inf |
0.1936 |
0.8015 |
3.44 |
12000 |
inf |
0.1880 |
0.774 |
3.73 |
13000 |
inf |
0.1834 |
0.8372 |
4.01 |
14000 |
inf |
0.1934 |
0.8075 |
4.3 |
15000 |
inf |
0.1923 |
0.8069 |
4.59 |
16000 |
inf |
0.1877 |
0.8064 |
4.87 |
17000 |
inf |
0.1955 |
0.801 |
5.16 |
18000 |
inf |
0.1891 |
0.8022 |
5.45 |
19000 |
inf |
0.1895 |
0.792 |
5.73 |
20000 |
inf |
0.1854 |
該模型在第 13000 步的驗證集上取得了最佳結果:
在計算驗證損失時出現了一些問題。
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.3.dev0
- Tokenizers 0.11.0
評估結果
不使用語言模型(LM):
數據集 |
詞錯誤率(WER) |
字符錯誤率(CER) |
TEST CV |
18.33 |
5.60 |
DEV audio |
31.33 |
13.20 |
TEST audio |
/ |
/ |
使用語言模型(LM):
數據集 |
詞錯誤率(WER) |
字符錯誤率(CER) |
TEST CV |
15.40 |
5.36 |
DEV audio |
25.05 |
12.45 |
TEST audio |
/ |
/ |
📄 許可證
本模型使用 Apache - 2.0 許可證。
🔧 技術細節
模型信息
屬性 |
詳情 |
模型類型 |
基於微調的自動語音識別模型 |
訓練數據 |
MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - FR 數據集 |
評估指標
本模型使用詞錯誤率(WER)和字符錯誤率(CER)作為評估指標,以衡量模型在語音識別任務中的性能。在不同數據集和是否使用語言模型的情況下,模型的 WER 和 CER 表現有所不同。使用語言模型通常能降低 WER 和 CER,提高模型的識別準確性。