ai-light-dance_singing_ft_wav2vec2-large-xlsr-53オープンソースモデル

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53

gary109によって開発

このモデルは、AI_LIGHT_DANCE - ONSET-SINGINGデータセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。

ダウンロード数 23

リリース時間 : 6/15/2022

モデル概要

これは歌唱音声認識タスク向けに最適化された自動音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャを基にファインチューニングされており、評価セットで20.43%の単語誤り率を達成しました。

歌唱音声認識最適化

歌唱音声に特化してファインチューニングされており、一般的な音声認識モデルと比べて歌唱シーンで優れた性能を発揮します

低い単語誤り率

評価セットで20.43%の単語誤り率を達成し、良好な性能を示しています

XLSRアーキテクチャ採用

大規模な多言語音声表現学習の事前学習モデルを基盤としています

歌唱音声認識

音声からテキストへの変換

音楽コンテンツ分析

音楽分析

歌詞の文字起こし

歌唱録音を自動的に歌詞テキストに変換します

単語誤り率20.43%

音楽コンテンツ検索

歌詞内容を通じて音楽フラグメントを検索します

音楽教育

歌唱練習評価

歌唱録音と標準歌詞の一致度を分析します

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.4089	1.0	552	1.4750	0.9054
0.7995	2.0	1104	0.9044	0.6163
0.6232	3.0	1656	0.6645	0.3980
0.5351	4.0	2208	0.5674	0.3120
0.472	5.0	2760	0.5167	0.2579
0.3913	6.0	3312	0.4553	0.2335
0.3306	7.0	3864	0.4476	0.2114
0.3028	8.0	4416	0.4327	0.2043
0.317	9.0	4968	0.4355	0.2033
0.2494	10.0	5520	0.4405	0.2022