ai-light-dance_singing_ft_wav2vec2-large-xlsr-53開源模型

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

由gary109開發

該模型是基於facebook/wav2vec2-large-xlsr-53在AI_LIGHT_DANCE - ONSET-SINGING數據集上微調的自動語音識別模型，主要用於歌唱語音識別任務。

下載量 23

發布時間 : 6/15/2022

模型概述

這是一個針對歌唱語音識別任務優化的自動語音識別模型，基於wav2vec2-large-xlsr-53架構微調而成，在評估集上取得了20.43%的詞錯誤率。

歌唱語音識別優化

專門針對歌唱語音進行微調，相比通用語音識別模型在歌唱場景表現更優

低詞錯誤率

在評估集上取得20.43%的詞錯誤率，表現良好

基於XLSR架構

採用跨語言語音表示學習的大規模預訓練模型作為基礎

歌唱語音識別

音頻轉文本

音樂內容分析

音樂分析

歌唱歌詞轉錄

將歌唱錄音自動轉換為歌詞文本

詞錯誤率20.43%

音樂內容檢索

通過歌詞內容搜索音樂片段

音樂教育

歌唱練習評估

分析歌唱錄音與標準歌詞的匹配度

訓練損失	輪數	步數	驗證損失	字錯率（Wer）
1.4089	1.0	552	1.4750	0.9054
0.7995	2.0	1104	0.9044	0.6163
0.6232	3.0	1656	0.6645	0.3980
0.5351	4.0	2208	0.5674	0.3120
0.472	5.0	2760	0.5167	0.2579
0.3913	6.0	3312	0.4553	0.2335
0.3306	7.0	3864	0.4476	0.2114
0.3028	8.0	4416	0.4327	0.2043
0.317	9.0	4968	0.4355	0.2033
0.2494	10.0	5520	0.4405	0.2022