🚀 XLS-R西班牙語測試模型
本模型是基於自動語音識別技術的模型,在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES數據集上微調了facebook/wav2vec2 - large - xlsr - 53模型,在評估集上取得了不錯的效果。
🚀 快速開始
本模型是facebook/wav2vec2 - large - xlsr - 53在MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值:0.1461
- 詞錯誤率(Wer):1.0063
✨ 主要特性
本模型適用於自動語音識別任務,可處理西班牙語語音數據。
📚 詳細文檔
模型描述
本模型基於預訓練的facebook/wav2vec2 - large - xlsr - 53,在西班牙語語音數據集上進行了微調,以適應西班牙語的語音識別任務。
預期用途與限制
文檔暫未提供相關信息。
訓練和評估數據
文檔暫未提供相關信息。
訓練過程
訓練超參數
訓練過程中使用了以下超參數:
- 學習率(learning_rate):7.5e - 05
- 訓練批次大小(train_batch_size):8
- 評估批次大小(eval_batch_size):8
- 隨機種子(seed):42
- 梯度累積步數(gradient_accumulation_steps):4
- 總訓練批次大小(total_train_batch_size):32
- 優化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 學習率調度器類型(lr_scheduler_type):線性
- 學習率調度器熱身步數(lr_scheduler_warmup_steps):2000
- 訓練輪數(num_epochs):5.0
- 混合精度訓練(mixed_precision_training):原生自動混合精度(Native AMP)
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
詞錯誤率(Wer) |
2.953 |
0.15 |
1000 |
2.9528 |
1.0 |
1.1519 |
0.3 |
2000 |
0.3735 |
1.0357 |
1.0278 |
0.45 |
3000 |
0.2529 |
1.0390 |
0.9922 |
0.61 |
4000 |
0.2208 |
1.0270 |
0.9618 |
0.76 |
5000 |
0.2088 |
1.0294 |
0.9364 |
0.91 |
6000 |
0.2019 |
1.0214 |
0.9179 |
1.06 |
7000 |
0.1940 |
1.0294 |
0.9154 |
1.21 |
8000 |
0.1915 |
1.0290 |
0.8985 |
1.36 |
9000 |
0.1837 |
1.0211 |
0.9055 |
1.51 |
10000 |
0.1838 |
1.0273 |
0.8861 |
1.67 |
11000 |
0.1765 |
1.0139 |
0.892 |
1.82 |
12000 |
0.1723 |
1.0188 |
0.8778 |
1.97 |
13000 |
0.1735 |
1.0092 |
0.8645 |
2.12 |
14000 |
0.1707 |
1.0106 |
0.8595 |
2.27 |
15000 |
0.1713 |
1.0186 |
0.8392 |
2.42 |
16000 |
0.1686 |
1.0053 |
0.8436 |
2.57 |
17000 |
0.1653 |
1.0096 |
0.8405 |
2.73 |
18000 |
0.1689 |
1.0077 |
0.8382 |
2.88 |
19000 |
0.1645 |
1.0114 |
0.8247 |
3.03 |
20000 |
0.1647 |
1.0078 |
0.8219 |
3.18 |
21000 |
0.1611 |
1.0026 |
0.8024 |
3.33 |
22000 |
0.1580 |
1.0062 |
0.8087 |
3.48 |
23000 |
0.1578 |
1.0038 |
0.8097 |
3.63 |
24000 |
0.1556 |
1.0057 |
0.8094 |
3.79 |
25000 |
0.1552 |
1.0035 |
0.7836 |
3.94 |
26000 |
0.1516 |
1.0052 |
0.8042 |
4.09 |
27000 |
0.1515 |
1.0054 |
0.7925 |
4.24 |
28000 |
0.1499 |
1.0031 |
0.7855 |
4.39 |
29000 |
0.1490 |
1.0041 |
0.7814 |
4.54 |
30000 |
0.1482 |
1.0068 |
0.7859 |
4.69 |
31000 |
0.1460 |
1.0066 |
0.7819 |
4.85 |
32000 |
0.1464 |
1.0062 |
0.7784 |
5.0 |
33000 |
0.1460 |
1.0063 |
框架版本
- Transformers:4.17.0.dev0
- Pytorch:1.10.2 + cu102
- Datasets:1.18.3.dev0
- Tokenizers:0.11.0
📄 許可證
本模型使用Apache - 2.0許可證。
🔧 技術細節
模型指標
屬性 |
詳情 |
模型類型 |
自動語音識別模型 |
訓練數據 |
MOZILLA - FOUNDATION/COMMON_VOICE_7_0 - ES數據集 |
任務結果
本模型在不同數據集上的評估結果如下:
- Common Voice 7數據集:
- 測試詞錯誤率(Test WER):13.89
- 測試字符錯誤率(Test CER):3.85
- Robust Speech Event - Dev Data數據集:
- 測試詞錯誤率(Test WER):37.66
- 測試字符錯誤率(Test CER):15.32
- Robust Speech Event - Test Data數據集:
- 測試詞錯誤率(Test WER):41.17
- 測試字符錯誤率(Test CER)暫未提及 |