wav2vec2-common_voice-tr-demo-dist开源语音识别模型

首页

Wav2vec2 Common Voice Tr Demo Dist

由 cromz22 开发

该模型是基于facebook/wav2vec2-large-xlsr-53在COMMON_VOICE - TR土耳其语数据集上微调的自动语音识别(ASR)模型，在评估集上取得了0.3242的词错误率。

语音识别

Transformers

其他开源协议:Apache-2.0 #土耳其语音识别 #多GPU训练 #低词错误率

下载量 26

发布时间 : 5/18/2022

模型简介

一个针对土耳其语的自动语音识别模型，基于wav2vec2架构微调，适用于将土耳其语语音转换为文本的任务。

模型特点

土耳其语优化

专门针对土耳其语语音数据进行微调，在土耳其语识别任务上表现良好

基于wav2vec2架构

采用facebook的wav2vec2-large-xlsr-53作为基础模型，具有强大的语音特征提取能力

多GPU训练

使用4个GPU进行分布式训练，提高了训练效率

模型能力

土耳其语语音识别

语音转文本

使用案例

语音转录

土耳其语语音转录

将土耳其语语音内容转换为文本

词错误率0.3242

语音助手

土耳其语语音指令识别

用于土耳其语语音助手系统中的语音指令识别

🚀 wav2vec2-common_voice-tr-demo-dist

这个模型是 facebook/wav2vec2-large-xlsr-53 在 COMMON_VOICE - TR 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.3848
字错率（Wer）：0.3242

🚀 快速开始

本部分暂未提供相关内容。

✨ 主要特性

本部分暂未提供相关内容。

📦 安装指南

本部分暂未提供相关内容。

💻 使用示例

本部分暂未提供相关内容。

📚 详细文档

模型描述

更多信息待补充。

预期用途与限制

更多信息待补充。

训练和评估数据

更多信息待补充。

训练过程

训练超参数

训练期间使用了以下超参数：

学习率：0.0003
训练批次大小：4
评估批次大小：8
随机种子：42
分布式类型：多GPU
设备数量：4
总训练批次大小：16
总评估批次大小：32
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e-08）
学习率调度器类型：线性
学习率调度器热身步数：500
训练轮数：15.0
混合精度训练：原生自动混合精度（Native AMP）

训练结果

训练损失	轮数	步数	验证损失	字错率（Wer）
3.5279	0.46	100	3.6260	1.0
3.1065	0.92	200	3.0854	0.9999
1.4111	1.38	300	1.3343	0.8839
0.8468	1.83	400	0.6920	0.6826
0.6242	2.29	500	0.6001	0.5996
0.4181	2.75	600	0.5655	0.5680
0.4311	3.21	700	0.4478	0.5003
0.3601	3.67	800	0.4548	0.5011
0.2756	4.13	900	0.4444	0.4682
0.2373	4.59	1000	0.4111	0.4432
0.1831	5.05	1100	0.4178	0.4447
0.2423	5.5	1200	0.3881	0.4277
0.2128	5.96	1300	0.3865	0.4018
0.1256	6.42	1400	0.3818	0.4137
0.1038	6.88	1500	0.3739	0.3942
0.1662	7.34	1600	0.3938	0.3929
0.198	7.8	1700	0.3831	0.3837
0.0728	8.26	1800	0.3910	0.3867
0.123	8.72	1900	0.3722	0.3735
0.0776	9.17	2000	0.3938	0.3725
0.1597	9.63	2100	0.3786	0.3697
0.1124	10.09	2200	0.3947	0.3590
0.0965	10.55	2300	0.3952	0.3562
0.0612	11.01	2400	0.3810	0.3476
0.0764	11.47	2500	0.3734	0.3507
0.0973	11.93	2600	0.3935	0.3472
0.0649	12.39	2700	0.3672	0.3413
0.0542	12.84	2800	0.3732	0.3369
0.087	13.3	2900	0.3833	0.3458
0.0196	13.76	3000	0.3761	0.3303
0.0548	14.22	3100	0.3855	0.3274
0.0577	14.68	3200	0.3893	0.3238