wav2vec2-xls-r-myv-a1开源语音识别模型 - 支持Erzya语言语音精准识别

首页

Wav2vec2 Xls R Myv A1

由 DrishtiSharma 开发

该模型是基于facebook/wav2vec2-xls-r-300m在Erzya语言(MYV)数据集上微调的自动语音识别(ASR)模型，在Common Voice 8测试集上取得了65.15%的词错误率(WER)。

语音识别

Transformers

其他开源协议:Apache-2.0 #低资源语言ASR #Erzya语音识别 #多方言鲁棒性

下载量 24

发布时间 : 3/2/2022

模型简介

这是一个针对Erzya语言的自动语音识别模型，基于wav2vec2 XLS-R架构微调，适用于将Erzya语音转换为文本的任务。

模型特点

多语言支持

专门针对Erzya语言优化，适用于低资源语言的语音识别任务

基于XLS-R架构

采用Facebook的wav2vec2 XLS-R 300M参数模型作为基础，具有强大的语音特征提取能力

在Common Voice数据集上微调

使用Mozilla Common Voice 8.0的Erzya语言数据进行微调，适应特定语言特点

模型能力

语音转文本

Erzya语言识别

自动语音识别

使用案例

语音转写

Erzya语音转录

将Erzya语言的语音内容转换为文本

在测试集上达到65.15%的词错误率(WER)

语言保护

少数民族语言数字化

帮助记录和数字化Erzya等少数民族语言的语音资料

🚀 自动语音识别模型 - wav2vec2-xls-r-myv-a1

本模型是基于自动语音识别技术的微调模型，在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - MYV数据集上对[facebook/wav2vec2 - xls - r - 300m](https://huggingface.co/facebook/wav2vec2 - xls - r - 300m)进行微调。它在评估集上取得了较好的效果，可用于自动语音识别相关任务。

📄 许可证

本模型采用Apache - 2.0许可证。

✨ 主要特性

多语言支持：支持Erzya语（myv）的自动语音识别。
多数据集验证：在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2/dev_data等数据集上进行评估。
评估指标良好：在测试集上有一定的WER和CER指标表现。

📚 详细文档

模型信息

属性	详情
模型类型	自动语音识别模型（Automatic Speech Recognition）
训练数据	mozilla - foundation/common_voice_8_0

评估结果

本模型在评估集上取得了以下结果：

Loss: 1.0356
Wer: 0.6524

不同数据集评估指标

数据集名称	任务类型	测试WER	测试CER
Common Voice 8	自动语音识别	0.6514672686230248	0.17226131905088124
Robust Speech Event - Dev Data	自动语音识别	NA	NA

评估命令

1. 在mozilla - foundation/common_voice_8_0测试集上评估

python eval.py  --model_id DrishtiSharma/wav2vec2-xls-r-myv-a1 --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs

2. 在speech - recognition - community - v2/dev_data上评估

Erzya语言在speech - recognition - community - v2/dev_data中未找到。

训练超参数

训练过程中使用了以下超参数：

learning_rate: 0.0004
train_batch_size: 16
eval_batch_size: 32
seed: 42
optimizer: Adam with betas=(0.9, 0.999) and epsilon = 1e - 08
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 800
num_epochs: 200.0
mixed_precision_training: Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
5.649	9.62	500	3.0038	1.0
1.6272	19.23	1000	0.7362	0.7819
1.1354	28.85	1500	0.6410	0.7111
1.0424	38.46	2000	0.6907	0.7431
0.9293	48.08	2500	0.7249	0.7102
0.8246	57.69	3000	0.7422	0.6966
0.7837	67.31	3500	0.7413	0.6813
0.7147	76.92	4000	0.7873	0.6930
0.6276	86.54	4500	0.8038	0.6677
0.6041	96.15	5000	0.8240	0.6831
0.5336	105.77	5500	0.8748	0.6749
0.4705	115.38	6000	0.9006	0.6497
0.43	125.0	6500	0.8954	0.6551
0.3859	134.62	7000	0.9074	0.6614
0.3342	144.23	7500	0.9693	0.6560
0.3155	153.85	8000	1.0073	0.6691
0.2673	163.46	8500	1.0170	0.6632
0.2409	173.08	9000	1.0304	0.6709
0.2189	182.69	9500	0.9965	0.6546
0.1973	192.31	10000	1.0360	0.6551

框架版本

Transformers 4.17.0.dev0
Pytorch 1.10.2+cu102
Datasets 1.18.2.dev0
Tokenizers 0.11.0

评估命令示例

!python eval.py \
    --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-myv-v1 \
    --dataset mozilla-foundation/common_voice_8_0 --config myv --split test --log_outputs