ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3開源模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

由gary109開發

基於wav2vec2-large-xlsr-53的自動語音識別模型，在GARY109/AI_LIGHT_DANCE數據集上微調

下載量 191

發布時間 : 6/25/2022

模型概述

該模型是針對Stepmania遊戲音頻優化的自動語音識別模型，主要用於識別遊戲中的音頻指令或節奏點。

高精度語音識別

基於wav2vec2-large-xlsr-53架構，提供較高的語音識別準確率

遊戲音頻優化

專門針對Stepmania遊戲音頻進行微調，適合遊戲場景使用

多輪訓練優化

經過10輪訓練，模型性能逐步提升並趨於穩定

自動語音識別

遊戲音頻處理

節奏點檢測

遊戲應用

Stepmania遊戲指令識別

識別遊戲中的音頻指令，輔助遊戲操作

詞錯誤率0.6928

遊戲節奏分析

分析遊戲音頻中的節奏點，用於遊戲輔助工具開發

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.9189	1.0	188	1.0770	0.7002
0.9172	2.0	376	1.0780	0.6955
0.9177	3.0	564	1.0824	0.6916
0.9184	4.0	752	1.0734	0.6928
0.9072	5.0	940	1.0841	0.6897
0.9089	6.0	1128	1.0788	0.6870
0.9174	7.0	1316	1.0761	0.6856
0.9072	8.0	1504	1.0776	0.6850
0.9079	9.0	1692	1.0795	0.6852
0.9016	10.0	1880	1.0817	0.6850