🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-14h-with-lm
本项目是一个自动语音识别模型,通过对大量卢森堡语语音数据进行微调训练,能够实现对卢森堡语语音的准确识别,为相关语音处理任务提供了有力支持。
🚀 快速开始
此部分文档未提供快速开始的相关内容,你可以根据模型的使用说明进一步探索如何使用该模型。
✨ 主要特性
- 该模型基于wav2vec 2.0 large XLSR - 53进行微调,先使用从RTL.lu收集的842小时未标注卢森堡语语音数据进行预训练,再在相同领域的14小时标注卢森堡语语音数据上进行微调。
- 模型在评估指标上表现良好,开发集的词错误率(Dev WER)为11.68,测试集的词错误率(Test WER)为10.71;开发集的字符错误率(Dev CER)为2.64,测试集的字符错误率(Test CER)为2.31。
📚 详细文档
模型描述
我们对wav2vec 2.0 large XLSR - 53检查点进行了微调,使用从RTL.lu收集的842小时未标注卢森堡语语音数据。然后,该模型在来自相同领域的14小时标注卢森堡语语音数据上进行了微调。
预期用途与限制
文档中未提供更多相关信息。
训练和评估数据
文档中未提供更多相关信息。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率(learning_rate):7.5e - 05
- 训练批次大小(train_batch_size):3
- 评估批次大小(eval_batch_size):3
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):12
- 优化器(optimizer):Adam,β值为(0.9, 0.999),ε值为1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2000
- 训练轮数(num_epochs):50.0
- 混合精度训练(mixed_precision_training):Native AMP
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.1
- Tokenizers 0.12.1
引用
该模型是我们提交给IEEE SLT 2022研讨会的论文IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS
的研究成果。
@misc{lb-wav2vec2,
author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
year = {2022},
copyright = {2023 IEEE}
}
📄 许可证
本模型采用MIT许可证。
📦 模型信息
属性 |
详情 |
模型类型 |
自动语音识别(automatic - speech - recognition) |
评估指标 |
词错误率(wer)、字符错误率(cer) |
许可证 |
MIT |