AIライトダンスシンギング2_ft_wav2vec2オープンソースモデル - 歌唱音声を精度良く識別、無料でデプロイできて使いやすい！

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 1

gary109によって開発

このモデルはwav2vec2-large-xlsr-53アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでファインチューニングされ、歌唱音声認識タスクに主に使用されます。

音声認識

Transformers

#歌声認識 #高精度音声書き起こし #音楽コンテンツ分析

ダウンロード数 66

リリース時間 : 6/28/2022

モデル概要

これは歌唱音声に特化して最適化された自動音声認識モデルで、wav2vec2-large-xlsr-53アーキテクチャに基づき、特定の歌唱データセットでファインチューニングされており、歌唱内容を正確に認識できます。

モデル特徴

歌唱音声最適化

歌唱内容に特化して最適化されており、一般的な音声認識モデルと比べて歌唱シーンでより優れた性能を発揮します

高精度

評価データセットで12.11%の単語誤り率(WER)を達成し、良好な性能を示しています

wav2vec2アーキテクチャ採用

強力なwav2vec2-large-xlsr-53をベースモデルとして採用し、優れた音声特徴抽出能力を備えています

モデル能力

歌唱音声認識

自動音声テキスト変換

音楽コンテンツ分析

使用事例

音楽技術

歌唱内容文字起こし

歌唱録音を自動的にテキスト歌詞に変換

単語誤り率12.11%

音楽コンテンツ分析

音楽情報検索のための歌唱内容分析

🚀 ai-light-dance_singing2_ft_wav2vec2-large-xlsr-53-5gram-v4-1

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセットでgary109/ai-light-dance_singing_ft_wav2vec2-large-xlsr-53-5gram-v4をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。評価セットでの結果は以下の通りです。

損失: 0.2143
単語誤り率 (Wer): 0.1211

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

トレーニングと評価データ

詳細情報は後日追加予定です。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 3e-05
トレーニングバッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ (gradient_accumulation_steps): 8
総トレーニングバッチサイズ (total_train_batch_size): 64
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ (lr_scheduler_warmup_steps): 100
エポック数 (num_epochs): 10.0
混合精度トレーニング (mixed_precision_training): Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2609	1.0	280	0.2313	0.1376
0.2297	2.0	560	0.2240	0.1397
0.1951	3.0	840	0.2280	0.1361
0.1816	4.0	1120	0.2215	0.1282
0.1634	5.0	1400	0.2180	0.1240
0.1338	6.0	1680	0.2226	0.1241
0.1411	7.0	1960	0.2143	0.1211
0.1143	8.0	2240	0.2181	0.1174
0.1127	9.0	2520	0.2215	0.1167
0.105	10.0	2800	0.2196	0.1160