Hausa_xlsr开源豪萨语自动语音识别模型 - 免费助力语音内容处理

首页

Hausa Xlsr

由 Akashpb13 开发

这是一个基于facebook/wav2vec2-xls-r-300m微调的豪萨语自动语音识别模型，在Common Voice 8.0数据集上训练。

语音识别

Transformers

其他开源协议:Apache-2.0 #豪萨语语音识别 #低词错误率 #多方言适应

下载量 37

发布时间 : 3/2/2022

模型简介

该模型是针对豪萨语优化的自动语音识别系统，基于XLS-R架构微调，适用于豪萨语语音转文本任务。

模型特点

豪萨语优化

专门针对豪萨语语音识别任务进行微调优化

高性能

在Common Voice 8.0测试集上取得20.6%的词错误率(WER)和4.4%的字错误率(CER)

多数据集训练

整合了Common Voice多个版本的数据集，并进行了严格的数据筛选

模型能力

豪萨语语音识别

语音转文本

对话转录

使用案例

语音转录

豪萨语语音转录

将豪萨语语音内容转换为文本

词错误率20.6%，字错误率4.4%

语音助手

豪萨语语音交互

为豪萨语语音助手提供语音识别能力

🚀 Akashpb13/Hausa_xlsr

这个模型是 facebook/wav2vec2-xls-r-300m 的微调版本。它在评估集（训练数据集的 10% 与无效数据、报告数据、其他数据和开发数据集合并而成）上取得了以下结果：

损失：0.275118
词错误率（Wer）：0.329955

🚀 快速开始

评估命令

在 mozilla-foundation/common_voice_8_0 数据集的 test 分割上进行评估：

python eval.py --model_id Akashpb13/Hausa_xlsr --dataset mozilla-foundation/common_voice_8_0 --config ha --split test

✨ 主要特性

该模型基于 facebook/wav2vec2-xls-r-300m 进行微调，适用于豪萨语的自动语音识别任务。
在多个数据集上进行了评估，展示了良好的性能，如在 Common Voice 8 和 Robust Speech Event - Dev Data 数据集上的表现。

📚 详细文档

模型描述

对 "facebook/wav2vec2-xls-r-300m" 进行了微调。

预期用途与限制

更多信息待补充。

训练和评估数据

训练数据：Common voice 豪萨语的 train.tsv、dev.tsv、invalidated.tsv、reported.tsv 和 other.tsv。仅考虑那些赞成票多于反对票的点，并且在合并 Common voice 7.0 中给出的所有数据集后去除了重复项。

训练过程

为创建训练数据集，将所有可能的数据集进行了合并，并采用了 90 - 10 的分割。

训练超参数

训练期间使用了以下超参数：

学习率（learning_rate）：0.000096
训练批次大小（train_batch_size）：16
评估批次大小（eval_batch_size）：16
随机种子（seed）：13
梯度累积步数（gradient_accumulation_steps）：2
学习率调度器类型（lr_scheduler_type）：cosine_with_restarts
学习率调度器热身步数（lr_scheduler_warmup_steps）：500
训练轮数（num_epochs）：50
混合精度训练（mixed_precision_training）：Native AMP

训练结果

步骤	训练损失	验证损失	词错误率（Wer）
500	5.175900	2.750914	1.000000
1000	1.028700	0.338649	0.497999
1500	0.332200	0.246896	0.402241
2000	0.227300	0.239640	0.395839
2500	0.175000	0.239577	0.373966
3000	0.140400	0.243272	0.356095
3500	0.119200	0.263761	0.365164
4000	0.099300	0.265954	0.353428
4500	0.084400	0.276367	0.349693
5000	0.073700	0.282631	0.343825
5500	0.068000	0.282344	0.341158
6000	0.064500	0.281591	0.342491

框架版本

Transformers 4.16.0.dev0
Pytorch 1.10.0+cu102
Datasets 1.18.3
Tokenizers 0.10.3

🔧 技术细节

模型评估指标

该模型在不同数据集上的评估结果如下：

任务	数据集	评估指标	值
自动语音识别	Common Voice 8	测试词错误率（Test WER）	0.20614541257934219
自动语音识别	Common Voice 8	测试字符错误率（Test CER）	0.04358048053214061
自动语音识别	Robust Speech Event - Dev Data	测试词错误率（Test WER）	0.20614541257934219
自动语音识别	Robust Speech Event - Dev Data	测试字符错误率（Test CER）	0.04358048053214061