ai-light-dance_stepmania_ft_wav2vec2オープンソース自動音声認識モデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V1

gary109によって開発

このモデルは、wav2vec2-large-xlsr-53をGARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットでファインチューニングした自動音声認識モデルです。

ダウンロード数 48

リリース時間 : 6/23/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、特に音楽リズムゲームStepManiaの音声コマンドに最適化されています。

wav2vec2-large-xlsr-53ベースのファインチューニング

強力なwav2vec2-large-xlsr-53モデルをベースにファインチューニングされており、優れた音声認識基盤能力を備えています

StepMania向け最適化

音楽リズムゲームStepManiaの音声コマンドに特化してトレーニングされています

低い単語誤り率

評価データセットで0.7344の単語誤り率(WER)を達成しました

音声認識

音楽ゲームコマンド認識

ゲーム

StepMania音声制御

音楽リズムゲームStepManiaの音声コマンドを認識します

単語誤り率0.7344

音声インタラクション

ゲーム音声コマンド認識

特定のゲームシナリオでの音声コマンドを認識します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
1.1632	1.0	150	1.2007	0.9875
1.1615	2.0	300	1.1912	0.9875
1.1487	3.0	450	1.1942	0.9875
1.1207	4.0	600	1.1753	0.9875
1.0638	5.0	750	1.1345	0.8214
1.0174	6.0	900	1.1541	0.7665
0.9946	7.0	1050	1.0799	0.7716
0.9694	8.0	1200	1.0848	0.7418
0.9566	9.0	1350	1.0763	0.7344
0.9466	10.0	1500	1.0791	0.7240