ai-light-dance_singing_ft_wav2vec2-large-xlsr-53-5gram-v1開源模型

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53 5gram V1

由gary109開發

該模型是基於wav2vec2-large-xlsr-53的自動語音識別模型，在GARY109/AI_LIGHT_DANCE - ONSET-SINGING數據集上微調得到，主要用於歌唱語音識別。

下載量 18

發布時間 : 6/18/2022

模型概述

這是一個用於歌唱語音識別的自動語音識別模型，基於wav2vec2-large-xlsr-53架構微調，在特定歌唱數據集上表現出色。

高精度歌唱識別

在ONSET-SINGING數據集上微調，專門針對歌唱語音識別優化

基於wav2vec2架構

採用強大的wav2vec2-large-xlsr-53作為基礎模型

低詞錯誤率

在評估集上取得16.68%的詞錯誤率

歌唱語音識別

自動語音轉錄

音樂技術

歌唱內容轉錄

將歌唱錄音自動轉換為文本

詞錯誤率16.68%

音樂教育輔助

幫助音樂學習者分析歌唱發音

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.2696	1.0	552	0.4421	0.2013
0.2498	2.0	1104	0.4389	0.1887
0.2387	3.0	1656	0.4154	0.1788
0.1902	4.0	2208	0.4143	0.1753
0.1896	5.0	2760	0.4123	0.1668
0.1658	6.0	3312	0.4366	0.1651
0.1312	7.0	3864	0.4309	0.1594
0.1186	8.0	4416	0.4432	0.1561
0.1476	9.0	4968	0.4400	0.1569
0.1027	10.0	5520	0.4389	0.1554