🚀 Lemswasabi/wav2vec2-large-xlsr-53-842h-luxembourgish-4h
本项目是一个自动语音识别模型,通过对大量卢森堡语语音数据进行微调训练,可用于卢森堡语的语音识别任务,为相关领域提供了有效的技术支持。
🚀 快速开始
此部分暂未提供相关内容,若有后续补充,可进一步完善。
✨ 主要特性
- 本模型基于wav2vec 2.0 large XLSR - 53进行微调,先使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练,再在4小时标记的同领域卢森堡语语音数据上进行微调。
- 模型在评估指标上表现良好,开发集WER(词错误率)为19.44,测试集WER为18.77;开发集CER(字符错误率)为7.16,测试集CER为6.43。
📚 详细文档
模型描述
我们对wav2vec 2.0 large XLSR - 53检查点进行了微调,使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练,然后在4小时标记的同领域卢森堡语语音数据上进行微调。
预期用途与限制
更多信息待补充。
训练和评估数据
更多信息待补充。
训练过程
训练超参数
训练期间使用了以下超参数:
- 学习率(learning_rate):7.5e - 05
- 训练批次大小(train_batch_size):3
- 评估批次大小(eval_batch_size):3
- 随机种子(seed):42
- 梯度累积步数(gradient_accumulation_steps):4
- 总训练批次大小(total_train_batch_size):12
- 优化器(optimizer):Adam,β=(0.9, 0.999),ε = 1e - 08
- 学习率调度器类型(lr_scheduler_type):线性
- 学习率调度器热身步数(lr_scheduler_warmup_steps):2000
- 训练轮数(num_epochs):50.0
- 混合精度训练(mixed_precision_training):Native AMP
框架版本
- Transformers 4.20.0.dev0
- Pytorch 1.11.0 + cu113
- Datasets 2.2.1
- Tokenizers 0.12.1
引用信息
本模型是论文 IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS - LINGUAL SPEECH REPRESENTATIONS
的研究成果,该论文已提交至 IEEE SLT 2022 workshop。
@misc{lb-wav2vec2,
author = {Nguyen, Le Minh and Nayak, Shekhar and Coler, Matt.},
keywords = {Luxembourgish, multilingual speech recognition, language modelling, wav2vec 2.0 XLSR-53, under-resourced language},
title = {IMPROVING LUXEMBOURGISH SPEECH RECOGNITION WITH CROSS-LINGUAL SPEECH REPRESENTATIONS},
year = {2022},
copyright = {2023 IEEE}
}
📄 许可证
本项目采用MIT许可证。
📦 模型信息表格
属性 |
详情 |
模型类型 |
自动语音识别(Automatic Speech Recognition) |
训练数据 |
先使用从 RTL.lu 收集的842小时未标记卢森堡语语音数据进行预训练,再在4小时标记的同领域卢森堡语语音数据上进行微调 |
评估指标 |
开发集WER:19.44;测试集WER:18.77;开发集CER:7.16;测试集CER:6.43 |
训练超参数 |
学习率7.5e - 05,训练批次大小3,评估批次大小3等 |
框架版本 |
Transformers 4.20.0.dev0,Pytorch 1.11.0 + cu113等 |