ai - light - dance_singing_ft_pretrain_wav2vec2 - large - lv60オープンソースモデル

Ai Light Dance Singing Ft Pretrain Wav2vec2 Large Lv60

gary109によって開発

このモデルはwav2vec2-large-lv60アーキテクチャに基づく自動音声認識(ASR)モデルで、GARY109/AI_LIGHT_DANCE - ONSET-SINGINGデータセットでファインチューニングされ、主に歌声認識タスクに使用されます。

ダウンロード数 22

リリース時間 : 6/11/2022

モデル概要

これは歌声認識に特化した自動音声認識モデルで、wav2vec2-large-lv60アーキテクチャを基にファインチューニングされており、音楽関連の音声認識シーンに適しています。

歌声認識最適化

歌声認識タスク向けに特別にファインチューニングされており、一般的な音声認識モデルよりも音楽シーンで優れた性能を発揮する可能性があります

wav2vec2アーキテクチャ採用

Facebookのwav2vec2-large-lv60事前学習モデルをベースとしており、強力な音声特徴抽出能力を備えています

低リソース適応

ファインチューニングにより特定領域に適応しており、限られたデータ状況下での領域適応に適しています

歌声認識

自動音声認識

音楽コンテンツ書き起こし

音楽技術

歌詞書き起こし

歌唱された曲を自動的に歌詞テキストに変換

単語誤り率(WER)は約0.92

音楽教育支援

音楽学習者の歌唱発音を識別・修正する補助

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.6096	1.0	552	1.7650	1.0053
1.6294	2.0	1104	1.6735	0.9591
1.5509	3.0	1656	1.6170	0.9852
1.5175	4.0	2208	1.6312	0.9626
1.5267	5.0	2760	1.5032	0.9249
1.4055	6.0	3312	1.6107	0.9438
1.3267	7.0	3864	1.5386	0.9378
1.312	8.0	4416	1.4961	0.9206
1.3245	9.0	4968	1.5158	0.9182
1.2885	10.0	5520	1.5296	0.9230