ai-light-dance_singing2_ftオープンソースモデル - 無料で高精度な歌唱音声認識を実現

ホーム

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 V1

gary109によって開発

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルで、主に歌唱音声認識タスクに使用されます。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #歌声認識 #低い単語誤り率 #XLSR-53ファインチューニング

ダウンロード数 185

リリース時間 : 6/24/2022

モデル概要

これは歌唱音声認識タスクに最適化された自動音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャを基にファインチューニングされており、特定のデータセットで優れた性能を発揮します。

モデル特徴

歌唱音声最適化

歌唱音声に特化してファインチューニングされており、汎用音声認識モデルと比べて歌唱シーンでより優れた性能を発揮します

効率的なトレーニング

勾配蓄積などの技術を採用し、比較的小さなバッチサイズでも効果的なトレーニングを実現

安定した性能

トレーニング中の検証損失と単語誤り率が継続的に低下し、良好な収束性を示しています

モデル能力

歌唱音声認識

音声からテキストへの変換

音声コンテンツ分析

使用事例

音楽技術

歌唱音声から歌詞への変換

歌唱録音を自動的にテキスト歌詞に変換

単語誤り率約29.05%

音楽コンテンツ分析

歌唱録音中の歌詞内容を分析

🚀 ai-light-dance_singing2_ft_wav2vec2-large-xlsr-53-v1

このモデルは、gary109/ai-light-dance_singing2_ft_wav2vec2-large-xlsr-53 を GARY109/AI_LIGHT_DANCE - ONSET-SINGING2 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.5760
単語誤り率 (Wer): 0.2905

📚 ドキュメント

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 4e-05
学習バッチサイズ (train_batch_size): 10
評価バッチサイズ (eval_batch_size): 10
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 16
総学習バッチサイズ (total_train_batch_size): 160
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 100
エポック数 (num_epochs): 40.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.656	1.0	112	1.7625	0.9265
1.3693	2.0	224	1.5135	0.9243
1.2172	3.0	336	1.2657	0.8533
1.0456	4.0	448	1.0893	0.7691
0.9385	5.0	560	1.0110	0.7097
0.8165	6.0	672	0.9243	0.6682
0.7491	7.0	784	0.8948	0.6583
0.6772	8.0	896	0.7894	0.6007
0.6096	9.0	1008	0.7684	0.5663
0.5714	10.0	1120	0.6978	0.4826
0.5213	11.0	1232	0.8433	0.4927
0.4624	12.0	1344	0.6695	0.4469
0.4298	13.0	1456	0.6569	0.3868
0.3939	14.0	1568	0.6633	0.3694
0.3803	15.0	1680	0.6376	0.3920
0.3415	16.0	1792	0.6463	0.3414
0.3239	17.0	1904	0.5841	0.3197
0.2946	18.0	2016	0.5948	0.3112
0.2751	19.0	2128	0.5760	0.2905
0.2834	20.0	2240	0.5884	0.2975
0.2383	21.0	2352	0.5989	0.2775
0.2265	22.0	2464	0.6151	0.2853
0.2158	23.0	2576	0.5843	0.2670
0.2015	24.0	2688	0.6621	0.2738
0.215	25.0	2800	0.6068	0.2652
0.1859	26.0	2912	0.6136	0.2570
0.1745	27.0	3024	0.6191	0.2624
0.1611	28.0	3136	0.6364	0.2578
0.1513	29.0	3248	0.6402	0.2535
0.172	30.0	3360	0.6330	0.2500
0.1488	31.0	3472	0.6275	0.2521
0.1371	32.0	3584	0.6539	0.2540
0.1356	33.0	3696	0.6544	0.2491
0.1319	34.0	3808	0.6545	0.2491
0.1465	35.0	3920	0.6573	0.2495
0.13	36.0	4032	0.6594	0.2494
0.1244	37.0	4144	0.6651	0.2476
0.1228	38.0	4256	0.6754	0.2497
0.1181	39.0	4368	0.6684	0.2468
0.1338	40.0	4480	0.6713	0.2471