ai-light-dance_singing2_ft開源自動語音識別模型

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V3

由gary109開發

基於wav2vec2-large-xlsr-53模型微調的自動語音識別模型，專注於歌唱語音識別

下載量 97

發布時間 : 6/28/2022

模型概述

該模型是在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2數據集上微調的版本，主要用於歌唱語音識別任務。

歌唱語音識別優化

專門針對歌唱語音進行了微調，可能比通用語音識別模型在歌唱場景下表現更好

5-gram語言模型增強

集成了5-gram語言模型，可能提高了識別準確率

低詞錯誤率

在評估集上取得了0.2256的詞錯誤率(WER)

歌唱語音識別

自動語音轉文本

音樂技術

歌唱錄音轉歌詞

將歌唱錄音自動轉換為文本歌詞

詞錯誤率約22.56%

音樂教育輔助

幫助音樂學習者分析歌唱發音準確性

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.2546	1.0	280	0.6004	0.2796
0.2325	2.0	560	0.6337	0.2729
0.2185	3.0	840	0.5546	0.2299
0.1988	4.0	1120	0.5265	0.2256
0.1755	5.0	1400	0.5577	0.2212
0.1474	6.0	1680	0.6353	0.2241
0.1498	7.0	1960	0.5758	0.2086
0.1252	8.0	2240	0.5738	0.2052
0.1174	9.0	2520	0.5994	0.2048
0.1035	10.0	2800	0.5988	0.2038