wav2vec2-xls-r-300m-uk开源语音识别模型

首页

Wav2vec2 Xls R 300m Uk

由 robinhad 开发

这是一个基于facebook/wav2vec2-xls-r-300m模型在乌克兰语数据集上微调的自动语音识别(ASR)模型，在Common Voice乌克兰语测试集上取得了12.22%的词错误率(WER)。

语音识别

Transformers

其他开源协议:MIT #乌克兰语语音识别 #低词错误率 #Common Voice数据集

下载量 72

发布时间 : 3/2/2022

模型简介

该模型专门用于乌克兰语的自动语音识别任务，能够将乌克兰语语音转换为文本。

模型特点

低词错误率

在Common Voice乌克兰语测试集上仅12.22%的词错误率(WER)，表现优异

基于XLS-R架构

采用facebook的wav2vec2-xls-r-300m架构，具备强大的语音特征提取能力

乌克兰语优化

专门针对乌克兰语进行微调优化，适合乌克兰语语音识别场景

模型能力

乌克兰语语音识别

语音转文本

使用案例

语音转录

乌克兰语语音转文字

将乌克兰语语音内容转换为可编辑的文本

准确率达到87.78% (WER=12.22%)

语音助手

乌克兰语语音助手

为乌克兰语用户提供语音交互功能

🚀 wav2vec2-xls-r-300m-uk

该模型是facebook/wav2vec2-xls-r-300m在未知数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.0927
词错误率（WER）：0.1222
字符错误率（CER）：0.0204

🚀 快速开始

本模型可用于乌克兰语的自动语音识别任务，基于预训练的wav2vec2-xls-r-300m模型微调而来。

✨ 主要特性

微调模型：基于facebook/wav2vec2-xls-r-300m进行微调，适用于乌克兰语语音识别。
评估指标明确：在评估集上提供了损失值、词错误率（WER）和字符错误率（CER）等指标。

📦 安装指南

文档中未提供具体安装步骤，故跳过此章节。

💻 使用示例

文档中未提供代码示例，故跳过此章节。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

🔧 技术细节

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：3e - 05
训练批次大小：40
评估批次大小：40
随机种子：42
梯度累积步数：6
总训练批次大小：240
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器热身步数：100
训练轮数：100
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	字符错误率（CER）	验证损失	词错误率（WER）
9.0008	1.68	200	1.0	3.7590	1.0
3.4972	3.36	400	1.0	3.3933	1.0
3.3432	5.04	600	1.0	3.2617	1.0
3.2421	6.72	800	1.0	3.0712	1.0
1.9839	7.68	1000	0.1400	0.7204	0.6561
0.8017	9.36	1200	0.0766	0.3734	0.4159
0.5554	11.04	1400	0.0583	0.2621	0.3237
0.4309	12.68	1600	0.0486	0.2085	0.2753
0.3697	14.36	1800	0.0421	0.1746	0.2427
0.3293	16.04	2000	0.0388	0.1597	0.2243
0.2934	17.72	2200	0.0358	0.1428	0.2083
0.2704	19.4	2400	0.0333	0.1326	0.1949
0.2547	21.08	2600	0.0322	0.1255	0.1882
0.2366	22.76	2800	0.0309	0.1211	0.1815
0.2183	24.44	3000	0.0294	0.1159	0.1727
0.2115	26.13	3200	0.0280	0.1117	0.1661
0.1968	27.8	3400	0.0274	0.1063	0.1622
0.1922	29.48	3600	0.0269	0.1082	0.1598
0.1847	31.17	3800	0.0260	0.1061	0.1550
0.1715	32.84	4000	0.0252	0.1014	0.1496
0.1689	34.53	4200	0.0250	0.1012	0.1492
0.1655	36.21	4400	0.0243	0.0999	0.1450
0.1585	37.88	4600	0.0239	0.0967	0.1432
0.1492	39.57	4800	0.0237	0.0978	0.1421
0.1491	41.25	5000	0.0236	0.0963	0.1412
0.1453	42.93	5200	0.0230	0.0979	0.1373
0.1386	44.61	5400	0.0227	0.0959	0.1353
0.1387	46.29	5600	0.0226	0.0927	0.1355
0.1329	47.97	5800	0.0224	0.0951	0.1341
0.1295	49.65	6000	0.0219	0.0950	0.1306
0.1287	51.33	6200	0.0216	0.0937	0.1290
0.1277	53.02	6400	0.0215	0.0963	0.1294
0.1201	54.69	6600	0.0213	0.0959	0.1282
0.1199	56.38	6800	0.0215	0.0944	0.1286
0.1221	58.06	7000	0.0209	0.0938	0.1249
0.1145	59.68	7200	0.0208	0.0941	0.1254
0.1143	61.36	7400	0.0209	0.0941	0.1249
0.1143	63.04	7600	0.0209	0.0940	0.1248
0.1137	64.72	7800	0.0205	0.0931	0.1234
0.1125	66.4	8000	0.0204	0.0927	0.1222