wav2vec2-large-xls-r-300m-bas-v1开源模型 - 免费部署实现巴萨语自动语音识别

首页

Wav2vec2 Large Xls R 300m Bas V1

由 DrishtiSharma 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在巴萨语(MOZILLA-FOUNDATION/COMMON_VOICE_8_0 - BAS数据集)上微调的自动语音识别模型。

语音识别

Transformers

其他开源协议:Apache-2.0 #巴萨语语音识别 #低词错误率 #多场景适配

下载量 23

发布时间 : 3/2/2022

模型简介

该模型专门用于巴萨语的自动语音识别任务，在Common Voice 8测试集上取得了35.66%的词错误率(WER)和11.03%的字错误率(CER)。

模型特点

巴萨语语音识别

专门针对巴萨语优化的语音识别能力

基于XLS-R架构

使用facebook的wav2vec2-xls-r-300m预训练模型作为基础

在Common Voice数据集上微调

使用MOZILLA-FOUNDATION/COMMON_VOICE_8_0的巴萨语数据进行微调

模型能力

巴萨语语音转文本

自动语音识别

使用案例

语音转录

巴萨语语音转录

将巴萨语语音转换为文本

在测试集上WER为35.66%，CER为11.03%

语音助手

巴萨语语音助手

支持巴萨语交互的语音助手应用

🚀 wav2vec2-large-xls-r-300m-bas-v1

本模型是基于 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BAS 数据集上进行微调得到的。它在自动语音识别任务中表现出色，能够有效处理相关语音数据。

🚀 快速开始

本模型是 facebook/wav2vec2-xls-r-300m 在 MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - BAS 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.5997
词错误率（Wer）：0.3870

评估命令

在 mozilla - foundation/common_voice_8_0 测试分割集上进行评估

python eval.py --model_id DrishtiSharma/wav2vec2-large-xls-r-300m-bas-v1 --dataset mozilla-foundation/common_voice_8_0 --config bas --split test --log_outputs

在 speech - recognition - community - v2/dev_data 上进行评估 Basaa (bas) 语言在 speech - recognition - community - v2/dev_data 中不可用。

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

属性	详情
学习率	0.000111
训练批次大小	16
评估批次大小	8
随机种子	42
梯度累积步数	2
总训练批次大小	32
优化器	Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型	线性
学习率调度器热身步数	500
训练轮数	100
混合精度训练	原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	词错误率（Wer）
12.7076	5.26	200	3.6361	1.0
3.1657	10.52	400	3.0101	1.0
2.3987	15.78	600	0.9125	0.6774
1.0079	21.05	800	0.6477	0.5352
0.7392	26.31	1000	0.5432	0.4929
0.6114	31.57	1200	0.5498	0.4639
0.5222	36.83	1400	0.5220	0.4561
0.4648	42.1	1600	0.5586	0.4289
0.4103	47.36	1800	0.5337	0.4082
0.3692	52.62	2000	0.5421	0.3861
0.3403	57.88	2200	0.5549	0.4096
0.3011	63.16	2400	0.5833	0.3925
0.2932	68.42	2600	0.5674	0.3815
0.2696	73.68	2800	0.5734	0.3889
0.2496	78.94	3000	0.5968	0.3985
0.2289	84.21	3200	0.5888	0.3893
0.2091	89.47	3400	0.5849	0.3852
0.2005	94.73	3600	0.5938	0.3875
0.1876	99.99	3800	0.5997	0.3870