ai-light-dance_singing2_ftオープンソース自動音声認識モデル

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V3

gary109によって開発

wav2vec2-large-xlsr-53モデルをファインチューニングした自動音声認識モデルで、歌唱音声認識に特化

ダウンロード数 97

リリース時間 : 6/28/2022

モデル概要

このモデルはGARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでファインチューニングされたバージョンで、主に歌唱音声認識タスクに使用されます。

歌唱音声認識最適化

歌唱音声に特化してファインチューニングされており、一般的な音声認識モデルよりも歌唱シーンで優れた性能を発揮する可能性があります

5-gram言語モデル強化

5-gram言語モデルを統合しており、認識精度の向上が期待できます

低い単語誤り率

評価セットで0.2256の単語誤り率(WER)を達成しました

歌唱音声認識

自動音声テキスト変換

音楽技術

歌唱録音から歌詞への変換

歌唱録音を自動的にテキスト歌詞に変換

単語誤り率約22.56%

音楽教育支援

音楽学習者の歌唱発音の正確性を分析するのに役立ちます

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2546	1.0	280	0.6004	0.2796
0.2325	2.0	560	0.6337	0.2729
0.2185	3.0	840	0.5546	0.2299
0.1988	4.0	1120	0.5265	0.2256
0.1755	5.0	1400	0.5577	0.2212
0.1474	6.0	1680	0.6353	0.2241
0.1498	7.0	1960	0.5758	0.2086
0.1252	8.0	2240	0.5738	0.2052
0.1174	9.0	2520	0.5994	0.2048
0.1035	10.0	2800	0.5988	0.2038