🚀 wav2vec2-bloom-speech-tgl
本项目是一个基于语音识别的模型,在特定数据集上对预训练模型进行微调,实现了较好的语音识别效果,同时对模型的使用、训练等方面都有明确的说明和限制。
🚀 快速开始
本模型是 facebook/wav2vec2-xls-r-300m 在 SIL-AI/bloom-speech - TGL(他加禄语)数据集上的微调版本。用户可参考原始模型获取使用训练好的模型进行推理的教程。
✨ 主要特性
- 多语言支持:支持他加禄语(TGL)的语音识别。
- 良好性能:在评估集上取得了较好的损失、字错误率(Wer)和字符错误率(Cer)结果。
📚 详细文档
模型描述
该模型在评估集上取得了以下结果:
- 损失:0.9606
- 字错误率(Wer):0.2457
- 字符错误率(Cer):0.0769
预期用途和限制
本模型的用户必须遵守 SIL RAIL - M 许可证。此模型作为概念验证而创建,不保证在特定情况下的性能。
训练和评估数据
训练、验证和测试数据集均从同一语料库生成,确保不使用重复文件。
训练过程
基于 Hugging Face Transformers Github 中的示例,使用标准的 XLS - R 微调方法。
训练超参数
训练期间使用了以下超参数:
- 学习率:0.0003
- 训练批次大小:16
- 评估批次大小:8
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器热身步数:250
- 训练轮数:1000.0
- 混合精度训练:原生 AMP
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
字错误率(Wer) |
字符错误率(Cer) |
无记录 |
22.73 |
250 |
0.9218 |
0.5239 |
0.1605 |
2.044 |
45.45 |
500 |
0.7345 |
0.3717 |
0.0981 |
2.044 |
68.18 |
750 |
0.7742 |
0.35 |
0.0957 |
0.0713 |
90.91 |
1000 |
0.8898 |
0.3196 |
0.0883 |
0.0713 |
113.64 |
1250 |
0.9236 |
0.3478 |
0.1044 |
0.0409 |
136.36 |
1500 |
0.8082 |
0.3174 |
0.0883 |
0.0409 |
159.09 |
1750 |
0.8353 |
0.2826 |
0.0824 |
0.0287 |
181.82 |
2000 |
0.7737 |
0.2783 |
0.0859 |
0.0287 |
204.55 |
2250 |
1.1609 |
0.2891 |
0.0871 |
0.0146 |
227.27 |
2500 |
0.9606 |
0.2457 |
0.0769 |
0.0146 |
250.0 |
2750 |
0.9115 |
0.2717 |
0.0777 |
0.015 |
272.73 |
3000 |
0.8434 |
0.3130 |
0.0859 |
0.015 |
295.45 |
3250 |
1.0805 |
0.3087 |
0.0961 |
框架版本
- Transformers 4.21.0.dev0
- Pytorch 1.9.0 + cu111
- Datasets 2.2.2
- Tokenizers 0.12.1
📄 许可证
本模型采用其他许可证。获取此模型前,需进行额外操作。该模型为开放访问,仅可用于非商业用途,SIL International AI & NLP RAIL - M 许可证进一步规定了权利和使用方式。
SIL RAIL - M 许可证规定:
- 不得使用该模型故意生成或分享非法或有害的输出或内容。特别是,不得使用该模型伤害或歧视原住民。
- 对于非商业用途生成的输出,SIL 不主张权利,用户可自由使用并对其使用负责,且使用不得违反许可证规定。
- 可以非商业方式重新分发模型权重并使用该模型,包括作为服务使用。若如此,请包含与许可证相同的使用限制,并向所有用户提供 SIL International AI & NLP RAIL - M 许可证副本(请完整、仔细阅读许可证)。请在此处阅读完整许可证:https://huggingface.co/spaces/sil-ai/model-license
点击下方“访问仓库”,即表示同意您的 联系信息(电子邮件地址和用户名)可与模型作者共享。
若想咨询该模型的商业用途,请 发邮件给我们。
信息表格
属性 |
详情 |
模型类型 |
基于 wav2vec2 的语音识别模型 |
训练数据 |
SIL - AI/bloom - speech - TGL 数据集 |
许可证 |
SIL International AI & NLP RAIL - M 许可证 |