ai-light-dance_stepmania_ft_wav2vec2オープンソース自動音声認識モデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53

gary109によって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をGARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットでファインチューニングした自動音声認識モデルです

ダウンロード数 40

リリース時間 : 6/22/2022

モデル概要

音声認識タスク用のファインチューニングモデルで、wav2vec2-large-xlsr-53アーキテクチャに基づき、特定のデータセットで最適化されています

XLSRアーキテクチャベース

wav2vec2-large-xlsr-53アーキテクチャを採用し、強力な音声特徴抽出能力を有します

特定領域ファインチューニング

GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットで最適化されています

効率的なトレーニング

混合精度トレーニングや勾配蓄積などの技術を使用してトレーニング効率を向上させています

音声認識

音声特徴抽出

自動文字起こし

音楽ゲーム

リズムゲーム音軌分析

リズムゲームのオーディオビートとパターンを分析するために使用されます

音声処理

音声からテキストへ

音声コンテンツをテキスト形式に変換します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
2.5631	1.0	150	2.4894	1.0
1.9443	2.0	300	1.8861	1.0
1.7618	3.0	450	1.6731	1.0
1.2354	4.0	600	1.2471	0.9875
1.2333	5.0	750	1.2253	0.9875
1.2037	6.0	900	1.2168	0.9875
1.2184	7.0	1050	1.2120	0.9875
1.1932	8.0	1200	1.2080	0.9875
1.179	9.0	1350	1.2039	0.9875
1.1722	10.0	1500	1.2034	0.9875