ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v7開源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V7

由gary109開發

基於wav2vec2-large-xlsr-53的自動語音識別模型，專為StepMania遊戲音頻優化，在GARY109/AI_LIGHT_DANCE數據集上微調

下載量 162

發布時間 : 6/30/2022

模型概述

該模型是針對StepMania遊戲音頻優化的自動語音識別(ASR)模型，通過微調wav2vec2-large-xlsr-53架構實現，在特定遊戲音頻數據集上表現出色

遊戲音頻優化

專門針對StepMania遊戲音頻數據進行優化，識別效果更佳

微調版本

基於wav2vec2-large-xlsr-53模型微調，保留原模型強大特徵提取能力

低詞錯誤率

在評估集上達到0.6512的詞錯誤率(WER)，表現優異

遊戲音頻識別

語音轉文本

節奏遊戲音頻分析

遊戲開發

StepMania遊戲音頻分析

用於分析StepMania遊戲中的音頻節奏和內容

詞錯誤率0.6512

語音識別

特定領域語音識別

適用於遊戲音頻等特定領域的語音識別任務

本模型是 gary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v6 在 GARY109/AI_LIGHT_DANCE - ONSET - STEPMANIA2 數據集上的微調版本。它在評估集上取得了以下結果：

本模型可用於自動語音識別任務，基於微調後的參數能更精準地處理相關語音數據。

訓練期間使用了以下超參數：

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.9303	1.0	12031	1.1160	0.6712
0.8181	2.0	24062	1.0601	0.6608
0.7861	3.0	36093	1.0478	0.6520
0.767	4.0	48124	1.0617	0.6526
0.797	5.0	60155	1.0424	0.6512
0.834	6.0	72186	1.0519	0.6542
0.7915	7.0	84217	1.0508	0.6494
0.8106	8.0	96248	1.0753	0.6449
0.7512	9.0	108279	1.1223	0.6592
0.777	10.0	120310	1.1201	0.6535
0.7631	11.0	132341	1.0780	0.6512
0.7465	12.0	144372	1.0822	0.6499
0.826	13.0	156403	1.0706	0.6445
0.7552	14.0	168434	1.0862	0.6449
0.8279	15.0	180465	1.1162	0.6461
0.7769	16.0	192496	1.1023	0.6420
0.7918	17.0	204527	1.1085	0.6456
0.6941	18.0	216558	1.1139	0.6417
0.7379	19.0	228589	1.1126	0.6410
0.7467	20.0	240620	1.1102	0.6369
0.8045	21.0	252651	1.1191	0.6376
0.7059	22.0	264682	1.1285	0.6381
0.7008	23.0	276713	1.1328	0.6377
0.7816	24.0	288744	1.1326	0.6366
0.7426	25.0	300775	1.1420	0.6362
0.7226	26.0	312806	1.1326	0.6350
0.665	27.0	324837	1.1419	0.6346
0.7184	28.0	336868	1.1480	0.6346
0.77	29.0	348899	1.1476	0.6343
0.727	30.0	360930	1.1494	0.6348