🚀 wav2vec2-xls-r-300m-cv7-turkish
本自动语音识别(ASR)模型是 facebook/wav2vec2-xls-r-300m 在土耳其语上的微调版本,可用于土耳其语的语音识别任务。
🚀 快速开始
若要评估该模型,请先安装 unicode_tr 包,它用于土耳其语文本处理。以下是不同数据集的评估命令:
- 在
mozilla-foundation/common_voice_7_0
数据集的 test
分割上进行评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
- 在
speech-recognition-community-v2/dev_data
数据集上进行评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
✨ 主要特性
- 基于
facebook/wav2vec2-xls-r-300m
进行微调,适配土耳其语语音识别。
- 支持多数据集训练和评估,包括
Common Voice 7.0 TR
和 MediaSpeech
。
- 训练过程中使用了自定义的预处理和加载步骤。
- 训练了 N - gram 语言模型以提升识别效果。
📦 安装指南
在运行评估之前,需要安装 unicode_tr
包:
pip install unicode_tr
💻 使用示例
评估示例
以下是在不同数据集上进行评估的命令示例:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
📚 详细文档
模型描述
本 ASR 模型是 facebook/wav2vec2-xls-r-300m 在土耳其语上的微调版本。
训练和评估数据
以下数据集用于微调:
训练过程
为支持上述两个数据集,执行了自定义的预处理和加载步骤,并使用 wav2vec2-turkish 仓库完成此目的。
训练超参数
以下超参数用于微调:
- 学习率:2e - 4
- 训练轮数:10
- 热身步数:500
- 冻结特征提取器
- 时间掩码概率:0.1
- 特征掩码概率:0.05
- 特征投影丢弃率:0.05
- 注意力丢弃率:0.05
- 最终丢弃率:0.05
- 激活丢弃率:0.05
- 每个设备的训练批次大小:8
- 每个设备的评估批次大小:8
- 梯度累积步数:8
框架版本
- Transformers:4.16.0.dev0
- Pytorch:1.10.1
- Datasets:1.17.0
- Tokenizers:0.10.3
语言模型
使用 KenLM 在土耳其语维基百科文章上训练了 N - gram 语言模型,并使用 ngram-lm-wiki 仓库生成 arpa LM 并将其转换为二进制格式。
评估命令
请在运行评估前安装 unicode_tr 包,它用于土耳其语文本处理。
- 在
mozilla-foundation/common_voice_7_0
数据集的 test
分割上评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset mozilla-foundation/common_voice_7_0 --config tr --split test
- 在
speech-recognition-community-v2/dev_data
数据集上评估:
python eval.py --model_id mpoyraz/wav2vec2-xls-r-300m-cv7-turkish --dataset speech-recognition-community-v2/dev_data --config tr --split validation --chunk_length_s 5.0 --stride_length_s 1.0
评估结果
数据集 |
词错误率(WER) |
字符错误率(CER) |
Common Voice 7 TR test split |
8.62 |
2.26 |
Speech Recognition Community dev data |
30.87 |
10.69 |
🔧 技术细节
- 模型基于
facebook/wav2vec2-xls-r-300m
进行微调,通过自定义的预处理和加载步骤适配多数据集。
- 训练过程中使用了多种超参数来优化模型性能,如学习率、训练轮数等。
- 训练了 N - gram 语言模型,使用 KenLM 在土耳其语维基百科文章上进行训练,并将其转换为二进制格式。
📄 许可证
本项目采用 CC - BY - 4.0 许可证。