xls-asr-vi-40h-1B开源越南语语音识别模型

首页

Xls Asr Vi 40h 1B

由 geninhu 开发

基于facebook/wav2vec2-xls-r-1b在40小时FPT开放语音数据集(FOSD)和公共语音数据集7.0上微调的越南语自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #越南语语音识别 #低资源优化 #多数据集训练

下载量 23

发布时间 : 3/2/2022

模型简介

该模型是针对越南语的自动语音识别(ASR)任务优化的模型，在有限的数据集上表现出色，支持语言模型集成以提高识别准确率。

模型特点

高效微调

仅使用40小时越南语数据在大型预训练模型上微调，实现高效资源利用

语言模型支持

支持集成4-gram语言模型，显著降低词错误率(WER)和字错误率(CER)

多数据集验证

在VIVOS、公共语音7.0和8.0等多个越南语数据集上进行全面评估

模型能力

越南语语音识别

语音转文本

支持语言模型集成

使用案例

语音转录

越南语语音转写

将越南语语音内容转换为文本

在公共语音7.0测试集上达到25.846% WER

语音助手

越南语语音指令识别

用于越南语语音助手的前端语音识别

🚀 xls-asr-vi-40h-1B

本模型是 facebook/wav2vec2-xls-r-1b 在40小时的FPT开放语音数据集（FOSD）和Common Voice 7.0上微调后的版本。

🚀 快速开始

本部分暂未提供相关内容。

✨ 主要特性

基于预训练模型 facebook/wav2vec2-xls-r-1b 进行微调，适用于越南语的自动语音识别任务。
在多个语音数据集上进行了评估，展示了较好的词错误率（WER）和字符错误率（CER）。

📚 详细文档

基准测试WER结果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
无语言模型	25.93	34.21
有4-gram语言模型	24.11	25.84	31.158

基准测试CER结果

	VIVOS	COMMON VOICE 7.0	COMMON VOICE 8.0
无语言模型	9.24	19.94
有4-gram语言模型	10.37	12.96	16.179

评估

请使用 eval.py 文件进行评估：

python eval.py --model_id geninhu/xls-asr-vi-40h-1B --dataset mozilla-foundation/common_voice_7_0 --config vi --split test --log_outputs

训练过程

训练超参数

训练过程中使用了以下超参数：

学习率：5e-05
训练批次大小：16
评估批次大小：16
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam，β=(0.9, 0.999)，ε=1e-08
学习率调度器类型：线性
学习率调度器热身步数：1500
训练轮数：10.0
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	词错误率（WER）
4.6222	1.85	1500	5.9479	0.5474
1.1362	3.7	3000	7.9799	0.5094
0.7814	5.56	4500	5.0330	0.4724
0.6281	7.41	6000	2.3484	0.5020
0.5472	9.26	7500	2.2495	0.4793
0.4827	11.11	9000	1.1530	0.4768
0.4327	12.96	10500	1.6160	0.4646
0.3989	14.81	12000	3.2633	0.4703
0.3522	16.67	13500	2.2337	0.4708
0.3201	18.52	15000	3.6879	0.4565
0.2899	20.37	16500	5.4389	0.4599
0.2776	22.22	18000	3.5284	0.4537
0.2574	24.07	19500	2.1759	0.4649
0.2378	25.93	21000	3.3901	0.4448
0.217	27.78	22500	1.1632	0.4565
0.2115	29.63	24000	1.7441	0.4232
0.1959	31.48	25500	3.4992	0.4304
0.187	33.33	27000	3.6163	0.4369
0.1748	35.19	28500	3.6038	0.4467
0.17	37.04	30000	2.9708	0.4362
0.159	38.89	31500	3.2045	0.4279
0.153	40.74	33000	3.2427	0.4287
0.1463	42.59	34500	3.5439	0.4270
0.139	44.44	36000	3.9381	0.4150
0.1352	46.3	37500	4.1744	0.4092
0.1369	48.15	39000	4.2279	0.4154
0.1273	50.0	40500	4.1691	0.4133