ai - light - dance_singing_ft_wav2vec2 - large - xlsr - 53 - 5gram - v1オープンソースモデル

ホーム

Ai Light Dance Singing Ft Wav2vec2 Large Xlsr 53 5gram V1

gary109によって開発

このモデルはwav2vec2-large-xlsr-53を基にした自動音声認識モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGINGデータセットでファインチューニングされ、主に歌唱音声認識に使用されます。

音声認識

Transformers

#歌声音声認識 #XLSR-53ファインチューニング #低単語誤り率

ダウンロード数 18

リリース時間 : 6/18/2022

モデル概要

これは歌唱音声認識用の自動音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャを基にファインチューニングされており、特定の歌唱データセットで優れた性能を発揮します。

モデル特徴

高精度歌唱認識

ONSET-SINGINGデータセットでファインチューニングされ、歌唱音声認識に特化して最適化されています

wav2vec2アーキテクチャ採用

強力なwav2vec2-large-xlsr-53をベースモデルとして採用

低単語誤り率

評価データセットで16.68%の単語誤り率を達成

モデル能力

歌唱音声認識

自動音声文字起こし

使用事例

音楽技術

歌唱内容の文字起こし

歌唱録音を自動的にテキストに変換

単語誤り率16.68%

音楽教育支援

音楽学習者の歌唱発音分析を支援

🚀 ai-light-dance_singing_ft_wav2vec2-large-xlsr-53-5gram-v1

このモデルは、gary109/ai-light-dance_singing_ft_wav2vec2-large-xlsr-53-5gram をGARY109/AI_LIGHT_DANCE - ONSET-SINGINGデータセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています：

損失: 0.4123
単語誤り率 (Wer): 0.1668

🚀 クイックスタート

このモデルは、自動音声認識タスクに使用できます。具体的な使用方法については、huggingfaceのドキュメントを参照してください。

📚 ドキュメント

モデルの詳細

このモデルは、音声認識タスクに特化したモデルです。ファインチューニングにより、特定のデータセットに適応しています。

想定される用途と制限

想定される用途や制限に関する詳細な情報は、今後の更新で提供される予定です。

学習と評価データ

学習と評価に使用したデータに関する詳細な情報は、今後の更新で提供される予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです：

学習率 (learning_rate): 3e-05
学習バッチサイズ (train_batch_size): 2
評価バッチサイズ (eval_batch_size): 2
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 16
総学習バッチサイズ (total_train_batch_size): 32
オプティマイザー (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラーの種類 (lr_scheduler_type): cosine
学習率スケジューラーのウォームアップステップ数 (lr_scheduler_warmup_steps): 500
エポック数 (num_epochs): 10.0
混合精度学習 (mixed_precision_training): Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2696	1.0	552	0.4421	0.2013
0.2498	2.0	1104	0.4389	0.1887
0.2387	3.0	1656	0.4154	0.1788
0.1902	4.0	2208	0.4143	0.1753
0.1896	5.0	2760	0.4123	0.1668
0.1658	6.0	3312	0.4366	0.1651
0.1312	7.0	3864	0.4309	0.1594
0.1186	8.0	4416	0.4432	0.1561
0.1476	9.0	4968	0.4400	0.1569
0.1027	10.0	5520	0.4389	0.1554