wav2vec2-large-xls-r-300m-bg-v1开源模型 - 免费实现保加利亚语自动语音识别

首页

Wav2vec2 Large Xls R 300m Bg V1

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在保加利亚语语音数据集上微调的自动语音识别(ASR)模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #保加利亚语音识别 #多场景语音转写 #低字符错误率

下载量 16

发布时间 : 3/2/2022

模型简介

该模型专门针对保加利亚语进行优化，用于将语音转换为文本的自动语音识别任务。

模型特点

保加利亚语优化

专门针对保加利亚语进行微调，提供更好的语音识别效果

基于大规模预训练模型

基于facebook的wav2vec2-xls-r-300m模型进行微调，继承了其强大的语音特征提取能力

多数据集评估

在Common Voice 8和鲁棒语音事件等多个数据集上进行评估

模型能力

保加利亚语语音识别

连续语音转文本

对话语音处理

使用案例

语音转录

保加利亚语语音转录

将保加利亚语语音内容转换为文本

在Common Voice 8测试集上WER为0.47

语音助手

保加利亚语语音指令识别

用于保加利亚语语音助手或语音控制系统的语音识别模块

🚀 wav2vec2-large-xls-r-300m-bg-v1 语音识别模型

本模型基于Transformer架构，是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BG数据集上对facebook/wav2vec2-xls-r-300m进行微调后的版本，可用于保加利亚语的自动语音识别任务，在相关评估集上有良好表现。

✨ 主要特性

多数据集适配：可在MOZILLA - FOUNDATION/COMMON_VOICE_8_0和speech - recognition - community - v2等数据集上进行评估。
明确的评估指标：在评估集上提供了Loss、Wer、CER等指标数据，方便衡量模型性能。
详细的训练参数：公开了训练时使用的超参数，如学习率、批次大小等，便于复现训练过程。

📚 详细文档

模型信息

属性	详情
支持语言	保加利亚语（bg）
许可证	Apache - 2.0
模型类型	自动语音识别（automatic - speech - recognition）
训练数据集	mozilla - foundation/common_voice_8_0

评估结果

本模型在不同数据集上的评估结果如下：

Common Voice 8数据集（保加利亚语）
- Test WER：0.4709579127785184
- Test CER：0.10205125354383235
Robust Speech Event - Dev Data数据集（保加利亚语）
- Test WER：0.7053128872366791
- Test CER：0.210804311998487
Robust Speech Event - Test Data数据集（保加利亚语）
- Test WER：72.6

在评估集上的其他结果：

Loss: 0.5197
Wer: 0.4689

评估命令

在mozilla - foundation/common_voice_8_0测试集上评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset mozilla-foundation/common_voice_8_0 --config bg --split test --log_outputs

在speech - recognition - community - v2/dev_data数据集上评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bg-v1 --dataset speech-recognition-community-v2/dev_data --config bg --split validation --chunk_length_s 10 --stride_length_s 1

训练超参数

学习率（learning_rate）：7e - 05
训练批次大小（train_batch_size）：32
评估批次大小（eval_batch_size）：16
随机种子（seed）：42
优化器（optimizer）：Adam，betas = (0.9, 0.999)，epsilon = 1e - 08
学习率调度器类型（lr_scheduler_type）：线性
学习率调度器热身步数（lr_scheduler_warmup_steps）：2000
训练轮数（num_epochs）：50.0
混合精度训练（mixed_precision_training）：Native AMP

训练结果

训练损失（Training Loss）	轮数（Epoch）	步数（Step）	验证损失（Validation Loss）	词错误率（Wer）
4.3711	2.61	300	4.3122	1.0
3.1653	5.22	600	3.1156	1.0
2.8904	7.83	900	2.8421	0.9918
0.9207	10.43	1200	0.9895	0.8689
0.6384	13.04	1500	0.6994	0.7700
0.5215	15.65	1800	0.5628	0.6443
0.4573	18.26	2100	0.5316	0.6174
0.3875	20.87	2400	0.4932	0.5779
0.3562	23.48	2700	0.4972	0.5475
0.3218	26.09	3000	0.4895	0.5219
0.2954	28.7	3300	0.5226	0.5192
0.287	31.3	3600	0.4957	0.5146
0.2587	33.91	3900	0.4944	0.4893
0.2496	36.52	4200	0.4976	0.4895
0.2365	39.13	4500	0.5185	0.4819
0.2264	41.74	4800	0.5152	0.4776
0.2224	44.35	5100	0.5031	0.4746
0.2096	46.96	5400	0.5062	0.4708
0.2038	49.57	5700	0.5217	0.4698