AIライトダンス・シンギング2 FTウェイブベクター2オープンソース自動音声認識モデル

ホーム

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53

gary109によって開発

このモデルは、facebook/wav2vec2-large-xlsr-53をAI Light Danceデータセットでファインチューニングした自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #歌声認識 #XLSR-53ファインチューニング #低単語誤り率

ダウンロード数 26

リリース時間 : 6/23/2022

モデル概要

これは音声認識用のファインチューニングモデルで、特にAI Light Danceデータセットのsinging2データに最適化されています。

モデル特徴

wav2vec2-large-xlsr-53ベースのファインチューニング

強力な事前学習モデルを基にファインチューニングを行い、特定領域の認識性能を向上させました

singing2データ向け最適化

AI Light Danceデータセットのsinging2データに特化して最適化トレーニングを行いました

モデル能力

音声認識

音声文字起こし

使用事例

音声処理

歌の音声文字起こし

歌唱音声をテキストに変換

単語誤り率0.9386

🚀 ai-light-dance_singing2_ft_wav2vec2-large-xlsr-53

このモデルは、/WORKSPACE/ASANTE/AI-LIGHT-DANCE_DATASETS/AI_LIGHT_DANCE.PY - ONSET-SINGING2データセットでfacebook/wav2vec2-large-xlsr-53をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 1.7583
単語誤り率 (Wer): 0.9386

📚 ドキュメント

モデルの説明

詳細情報は後日提供予定です。

想定される用途と制限

詳細情報は後日提供予定です。

学習と評価データ

詳細情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 4e-06
学習バッチサイズ (train_batch_size): 10
評価バッチサイズ (eval_batch_size): 10
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 16
総学習バッチサイズ (total_train_batch_size): 160
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 100
エポック数 (num_epochs): 30.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失 (Training Loss)	エポック (Epoch)	ステップ (Step)	検証損失 (Validation Loss)	単語誤り率 (Wer)
27.4755	1.0	112	23.2618	1.0
5.5145	2.0	224	5.2213	1.0
4.2211	3.0	336	4.1673	1.0
3.8386	4.0	448	3.8253	1.0
3.5531	5.0	560	3.6286	1.0
3.5215	6.0	672	3.4762	0.9864
3.3493	7.0	784	3.3549	0.9847
3.1264	8.0	896	3.1797	0.9759
2.7557	9.0	1008	2.8703	0.9865
2.6345	10.0	1120	2.6736	0.9970
2.4297	11.0	1232	2.5638	1.0337
2.3057	12.0	1344	2.3680	0.9839
2.1436	13.0	1456	2.2367	0.9648
2.0856	14.0	1568	2.1635	0.9586
2.0035	15.0	1680	2.0945	0.9645
1.9134	16.0	1792	2.0395	0.9630
1.9443	17.0	1904	2.0017	0.9401
1.8988	18.0	2016	1.9514	0.9493
1.8141	19.0	2128	1.9111	0.9475
1.8344	20.0	2240	1.8790	0.9395
1.7775	21.0	2352	1.8616	0.9503
1.7517	22.0	2464	1.8333	0.9433
1.7037	23.0	2576	1.8156	0.9372
1.7158	24.0	2688	1.7961	0.9482
1.7111	25.0	2800	1.7817	0.9422
1.69	26.0	2912	1.7819	0.9430
1.6889	27.0	3024	1.7721	0.9386
1.6546	28.0	3136	1.7647	0.9453
1.6542	29.0	3248	1.7653	0.9375
1.647	30.0	3360	1.7583	0.9386