ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v4开源语音识别模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V4

由 gary109 开发

该模型是基于gary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2数据集上微调的自动语音识别模型。

下载量 189

发布时间 : 6/26/2022

模型简介

这是一个用于自动语音识别(ASR)的模型，基于wav2vec2-large-xlsr-53架构微调而成，主要用于处理与音乐节奏相关的语音识别任务。

基于wav2vec2-large-xlsr-53微调

使用强大的wav2vec2-large-xlsr-53架构作为基础模型，针对特定任务进行了优化

音乐节奏相关语音识别

专门针对音乐节奏相关的语音识别任务进行了训练

持续改进版本

这是v4版本，基于前代v3版本进一步优化

语音识别

音乐节奏相关语音处理

音乐游戏

StepMania游戏语音识别

用于识别音乐游戏StepMania中的语音指令

音乐教育

节奏训练辅助

帮助音乐学习者识别和跟随节奏指令

训练损失	轮数	步数	验证损失	字错率（Wer）
0.9218	1.0	188	1.0718	0.6958
0.9194	2.0	376	1.0354	0.6937
0.9077	3.0	564	1.0365	0.6730
0.8956	4.0	752	1.0497	0.6727
0.877	5.0	940	1.0299	0.6694
0.8736	6.0	1128	1.0298	0.6642
0.8769	7.0	1316	1.0348	0.6584
0.8571	8.0	1504	1.0689	0.6602
0.8573	9.0	1692	1.0559	0.6549
0.8458	10.0	1880	1.0706	0.6588