ai-light-dance_singing2_ft_wav2vec2開源語音識別模型

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 2

由gary109開發

基於wav2vec2-large-xlsr-53模型微調的自動語音識別模型，在GARY109/AI_LIGHT_DANCE數據集上訓練

下載量 68

發布時間 : 6/29/2022

模型概述

該模型是用於語音識別任務的微調版本，特別針對歌唱語音進行了優化

歌唱語音識別優化

專門針對歌唱語音進行了微調，可能對音樂相關語音識別有更好表現

基於wav2vec2架構

採用先進的wav2vec2-large-xlsr-53架構，具有良好的語音識別基礎

低詞錯誤率

在評估集上取得了9.1%的詞錯誤率，表現良好

語音轉文本

歌唱語音識別

音樂應用

歌詞轉錄

將歌唱錄音自動轉換為歌詞文本

詞錯誤率約9.1%

語音識別

語音轉寫

將語音內容轉換為文字

訓練損失值	輪數	步數	驗證損失值	字錯率
0.2664	1.0	8969	0.3347	0.1645
0.2032	2.0	17938	0.3170	0.1662
0.1888	3.0	26907	0.3188	0.1317
0.1774	4.0	35876	0.2885	0.1195
0.0696	5.0	44845	0.2703	0.1105
0.254	6.0	53814	0.2817	0.0972
0.0464	7.0	62783	0.2691	0.0910
0.0426	8.0	71752	0.3033	0.0875
0.035	9.0	80721	0.3150	0.0841
0.0274	10.0	89690	0.3073	0.0816