🚀 XLS - R - 1B - 法语语音识别模型
本项目是一个基于微调的自动语音识别模型,在法语语音数据集上进行训练,可有效识别法语语音内容,在多个语音数据集上有良好的表现。
🚀 快速开始
评估命令
- 在
mozilla - foundation/common_voice_8
的 test
分割集上进行评估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset mozilla-foundation/common_voice_8_0 --config fr --split test
- 在
speech - recognition - community - v2/dev_data
上进行评估
python eval.py --model_id Plim/xls-r-1b-cv_8-fr --dataset speech-recognition-community-v2/dev_data --config fr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
✨ 主要特性
- 基于
facebook/wav2vec2 - xls - r - 1b
模型进行微调,在法语语音识别任务上有良好表现。
- 支持使用语言模型(LM)进行评估,能有效降低词错误率(WER)和字符错误率(CER)。
📚 详细文档
模型描述
此模型是 [facebook/wav2vec2 - xls - r - 1b](https://huggingface.co/facebook/wav2vec2 - xls - r - 1b) 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - FR 数据集上的微调版本。
训练过程
训练超参数
训练过程中使用了以下超参数:
- 学习率(learning_rate):7.5e - 05
- 训练批次大小(train_batch_size):16
- 评估批次大小(eval_batch_size):16
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):8
- 总训练批次大小(total_train_batch_size):128
- 优化器(optimizer):Adam,β1 = 0.9,β2 = 0.999,ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2000
- 训练轮数(num_epochs):6.0
- 混合精度训练(mixed_precision_training):Native AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
词错误率(Wer) |
0.9827 |
0.29 |
1000 |
inf |
0.2937 |
1.0203 |
0.57 |
2000 |
inf |
0.2711 |
1.0048 |
0.86 |
3000 |
inf |
0.2620 |
0.9858 |
1.15 |
4000 |
inf |
0.2522 |
0.9709 |
1.43 |
5000 |
inf |
0.2365 |
0.9347 |
1.72 |
6000 |
inf |
0.2332 |
0.9256 |
2.01 |
7000 |
inf |
0.2261 |
0.8936 |
2.29 |
8000 |
inf |
0.2203 |
0.877 |
2.58 |
9000 |
inf |
0.2096 |
0.8393 |
2.87 |
10000 |
inf |
0.2017 |
0.8156 |
3.15 |
11000 |
inf |
0.1936 |
0.8015 |
3.44 |
12000 |
inf |
0.1880 |
0.774 |
3.73 |
13000 |
inf |
0.1834 |
0.8372 |
4.01 |
14000 |
inf |
0.1934 |
0.8075 |
4.3 |
15000 |
inf |
0.1923 |
0.8069 |
4.59 |
16000 |
inf |
0.1877 |
0.8064 |
4.87 |
17000 |
inf |
0.1955 |
0.801 |
5.16 |
18000 |
inf |
0.1891 |
0.8022 |
5.45 |
19000 |
inf |
0.1895 |
0.792 |
5.73 |
20000 |
inf |
0.1854 |
该模型在第 13000 步的验证集上取得了最佳结果:
在计算验证损失时出现了一些问题。
框架版本
- Transformers 4.17.0.dev0
- Pytorch 1.10.2 + cu102
- Datasets 1.18.3.dev0
- Tokenizers 0.11.0
评估结果
不使用语言模型(LM):
数据集 |
词错误率(WER) |
字符错误率(CER) |
TEST CV |
18.33 |
5.60 |
DEV audio |
31.33 |
13.20 |
TEST audio |
/ |
/ |
使用语言模型(LM):
数据集 |
词错误率(WER) |
字符错误率(CER) |
TEST CV |
15.40 |
5.36 |
DEV audio |
25.05 |
12.45 |
TEST audio |
/ |
/ |
📄 许可证
本模型使用 Apache - 2.0 许可证。
🔧 技术细节
模型信息
属性 |
详情 |
模型类型 |
基于微调的自动语音识别模型 |
训练数据 |
MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - FR 数据集 |
评估指标
本模型使用词错误率(WER)和字符错误率(CER)作为评估指标,以衡量模型在语音识别任务中的性能。在不同数据集和是否使用语言模型的情况下,模型的 WER 和 CER 表现有所不同。使用语言模型通常能降低 WER 和 CER,提高模型的识别准确性。