ai-light-dance_stepmania_ft_wav2vec2開源自動語音識別模型

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53

由gary109開發

該模型是基於facebook/wav2vec2-large-xlsr-53在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2數據集上微調的自動語音識別模型

下載量 40

發布時間 : 6/22/2022

模型概述

用於語音識別任務的微調模型，基於wav2vec2-large-xlsr-53架構，在特定數據集上進行了優化

基於XLSR架構

採用wav2vec2-large-xlsr-53架構，具有強大的語音特徵提取能力

特定領域微調

在GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2數據集上進行了優化

高效訓練

使用混合精度訓練和梯度累積等技術提高訓練效率

語音識別

音頻特徵提取

自動轉錄

音樂遊戲

節奏遊戲音軌分析

用於分析節奏遊戲中的音頻節拍和模式

語音處理

語音轉文本

將語音內容轉換為文本格式

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
2.5631	1.0	150	2.4894	1.0
1.9443	2.0	300	1.8861	1.0
1.7618	3.0	450	1.6731	1.0
1.2354	4.0	600	1.2471	0.9875
1.2333	5.0	750	1.2253	0.9875
1.2037	6.0	900	1.2168	0.9875
1.2184	7.0	1050	1.2120	0.9875
1.1932	8.0	1200	1.2080	0.9875
1.179	9.0	1350	1.2039	0.9875
1.1722	10.0	1500	1.2034	0.9875