xls-r-uzbek-cv8开源自动语音识别模型 - 精准识别乌兹别克语语音内容

首页

Xls R Uzbek Cv8

由 lucio 开发

基于facebook/wav2vec2-xls-r-300m在乌兹别克语Common Voice 8数据集上微调的自动语音识别模型

语音识别

Transformers

其他开源协议:Apache-2.0 #乌兹别克语语音识别 #低资源语言优化 #广播录音索引

下载量 2,860

发布时间 : 3/2/2022

模型简介

该模型是针对乌兹别克语的自动语音识别系统，在Common Voice 8数据集上训练，适用于低精度语音转文字场景

模型特点

乌兹别克语专用模型

专门针对乌兹别克语优化的语音识别模型

低资源优化

使用Common Voice数据集的50%训练数据实现良好效果

语言模型增强

结合kenlm语言模型显著提升识别准确率

特殊字符处理

正确处理乌兹别克语中的特殊字符<‘>和<’>

模型能力

乌兹别克语语音识别

低精度语音转文字

广播录音索引

使用案例

媒体处理

视频字幕生成

为乌兹别克语视频生成初步字幕草稿

广播录音索引

对乌兹别克语广播内容进行自动索引

🚀 XLS-R-300M Uzbek CV8

本模型是在MOZILLA - FOUNDATION/COMMON_VOICE_8_0 - UZ数据集上对facebook/wav2vec2 - xls - r - 300m进行微调后的版本。它在验证集上取得了以下成果：

损失率：0.3063
词错误率（Wer）：0.3852
字符错误率（Cer）：0.0777

✨ 主要特性

标签信息：具备自动语音识别、从训练器生成、HF语音识别排行榜、基于Mozilla基金会Common Voice 8.0数据集、鲁棒语音事件等相关标签。
数据集：使用了Mozilla基金会的Common Voice 8.0数据集。
基础模型：基于facebook的wav2vec2 - xls - r - 300m模型。
评估指标：在测试集上，使用语言模型（LM）时，词错误率（Wer）为15.065，字符错误率（Cer）为3.077；不使用语言模型时，词错误率为32.88，字符错误率为6.53。

📚 详细文档

模型描述

关于模型架构的描述，请参考facebook/wav2vec2 - xls - r - 300m。

模型词汇表由乌兹别克语现代拉丁字母组成，且去除了标点符号。需要注意的是，字符 <‘> 和 <’> 不算作标点符号，因为 <‘> 用于修饰 <o> 和 <g>，而 <’> 表示声门塞音或长元音。

解码器使用了基于Common Voice文本构建的kenlm语言模型。

预期用途与局限性

该模型预计在低保真度用例中具有一定的实用性，例如：

草稿视频字幕
录制广播的索引

该模型不够可靠，不能作为无障碍实时字幕的替代品，并且不应以侵犯Common Voice数据集贡献者或其他说话者隐私的方式使用。

训练和评估数据

训练数据：使用了train公共语音官方分割集的50%。
验证数据：使用了官方dev分割集的50%。
最终评估数据：无语言模型的模型在完整的test集上进行最终评估，而有语言模型的模型仅在test集中的500个示例上进行评估。

kenlm语言模型是从训练集和其他数据集分割的目标句子编译而来的。

训练超参数

训练期间使用了以下超参数：

学习率：3e - 05
训练批次大小：32
评估批次大小：8
随机种子：42
梯度累积步数：4
总训练批次大小：128
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：100.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失率	轮数	步数	验证损失率	词错误率（Wer）	字符错误率（Cer）
3.1401	3.25	500	3.1146	1.0	1.0
2.7484	6.49	1000	2.2842	1.0065	0.7069
1.0899	9.74	1500	0.5414	0.6125	0.1351
0.9465	12.99	2000	0.4566	0.5635	0.1223
0.8771	16.23	2500	0.4212	0.5366	0.1161
0.8346	19.48	3000	0.3994	0.5144	0.1102
0.8127	22.73	3500	0.3819	0.4944	0.1051
0.7833	25.97	4000	0.3705	0.4798	0.1011
0.7603	29.22	4500	0.3661	0.4704	0.0992
0.7424	32.47	5000	0.3529	0.4577	0.0957
0.7251	35.71	5500	0.3410	0.4473	0.0928
0.7106	38.96	6000	0.3401	0.4428	0.0919
0.7027	42.21	6500	0.3355	0.4353	0.0905
0.6927	45.45	7000	0.3308	0.4296	0.0885
0.6828	48.7	7500	0.3246	0.4204	0.0863
0.6706	51.95	8000	0.3250	0.4233	0.0868
0.6629	55.19	8500	0.3264	0.4159	0.0849
0.6556	58.44	9000	0.3213	0.4100	0.0835
0.6484	61.69	9500	0.3182	0.4124	0.0837
0.6407	64.93	10000	0.3171	0.4050	0.0825
0.6375	68.18	10500	0.3150	0.4039	0.0822
0.6363	71.43	11000	0.3129	0.3991	0.0810
0.6307	74.67	11500	0.3114	0.3986	0.0807
0.6232	77.92	12000	0.3103	0.3895	0.0790
0.6216	81.17	12500	0.3086	0.3891	0.0790
0.6174	84.41	13000	0.3082	0.3881	0.0785
0.6196	87.66	13500	0.3059	0.3875	0.0782
0.6174	90.91	14000	0.3084	0.3862	0.0780
0.6169	94.16	14500	0.3070	0.3860	0.0779
0.6166	97.4	15000	0.3066	0.3855	0.0778