ai-light-dance_singing2_ft_wav2vec2開源模型 - 精準識別歌唱語音，免費部署易用！

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 1

由gary109開發

該模型是基於wav2vec2-large-xlsr-53架構的自動語音識別(ASR)模型，在GARY109/AI_LIGHT_DANCE - ONSET-SINGING2數據集上微調得到，主要用於歌唱語音識別任務。

下載量 66

發布時間 : 6/28/2022

模型概述

這是一個專門針對歌唱語音優化的自動語音識別模型，基於wav2vec2-large-xlsr-53架構，在特定歌唱數據集上進行了微調，能夠準確識別歌唱內容。

歌唱語音優化

專門針對歌唱內容進行優化，相比通用語音識別模型在歌唱場景下表現更佳

高準確率

在評估集上取得了12.11%的詞錯誤率(WER)，表現良好

基於wav2vec2架構

採用強大的wav2vec2-large-xlsr-53作為基礎模型，具備優秀的語音特徵提取能力

歌唱語音識別

自動語音轉文本

音樂內容分析

音樂技術

歌唱內容轉錄

將歌唱錄音自動轉換為文本歌詞

詞錯誤率12.11%

音樂內容分析

分析歌唱內容用於音樂信息檢索

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
0.2609	1.0	280	0.2313	0.1376
0.2297	2.0	560	0.2240	0.1397
0.1951	3.0	840	0.2280	0.1361
0.1816	4.0	1120	0.2215	0.1282
0.1634	5.0	1400	0.2180	0.1240
0.1338	6.0	1680	0.2226	0.1241
0.1411	7.0	1960	0.2143	0.1211
0.1143	8.0	2240	0.2181	0.1174
0.1127	9.0	2520	0.2215	0.1167
0.105	10.0	2800	0.2196	0.1160