ai-light-dance_singing_ft_wav2vec2-large-lv60オープンソースモデル

Ai Light Dance Singing Ft Wav2vec2 Large Lv60

gary109によって開発

このモデルはfacebook/wav2vec2-large-lv60をAI_LIGHT_DANCE.PY - ONSET-SINGINGデータセットで微調整した自動音声認識モデルです

ダウンロード数 16

リリース時間 : 5/15/2022

モデル概要

歌唱コンテンツに特化して最適化された音声認識タスク用の微調整モデル

歌唱コンテンツ認識の最適化

歌唱コンテンツに特化して微調整されており、一般的な音声認識モデルよりも歌唱コンテンツで優れた性能を発揮する可能性があります

低単語誤り率

評価セットで0.2088の単語誤り率(WER)を達成し、良好な性能を示しています

wav2vec2アーキテクチャ採用

facebookのwav2vec2-large-lv60をベースモデルとして採用し、強力な音声特徴抽出能力を有しています

音声認識

歌唱コンテンツ認識

音楽関連アプリケーション

歌唱コンテンツの文字起こし

歌唱音声をテキストに変換

単語誤り率0.2088

音楽教育支援

音楽学習者の歌唱内容分析を支援

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.7432	1.0	4422	0.8939	0.6323
0.5484	2.0	8844	0.6393	0.3557
0.3919	3.0	13266	0.5315	0.2833
0.421	4.0	17688	0.5234	0.2522
0.3957	5.0	22110	0.5125	0.2247
0.3228	6.0	26532	0.4542	0.2088
0.346	7.0	30954	0.4673	0.1997
0.1637	8.0	35376	0.4583	0.1910
0.1508	9.0	39798	0.4623	0.1837
0.1564	10.0	44220	0.4717	0.1835