AIライトダンス_StepMania_ft_Wav2Vec2-large-xlsr-53-v5オープンソースモデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V5

gary109によって開発

wav2vec2-large-xlsr-53をベースにした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニングされています

ダウンロード数 160

リリース時間 : 6/27/2022

モデル概要

このモデルは自動音声認識(ASR)タスク用にファインチューニングされたバージョンで、AI_LIGHT_DANCEデータセットに最適化されており、音声をテキストに変換できます

高性能音声認識

評価セットで0.6622の単語誤り率(WER)を達成

wav2vec2アーキテクチャ採用

強力なwav2vec2-large-xlsr-53をベースモデルとして採用

ドメイン最適化

AI_LIGHT_DANCEデータセットで特別にファインチューニング

音声からテキストへの変換

自動音声認識

ゲームオーディオ処理

ダンスゲーム音声コマンド認識

ダンスゲーム中の音声コマンドを認識

単語誤り率0.6622

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.8867	1.0	376	1.0382	0.6821
0.8861	2.0	752	1.0260	0.6686
0.8682	3.0	1128	1.0358	0.6604
0.8662	4.0	1504	1.0234	0.6665
0.8463	5.0	1880	1.0333	0.6666
0.8573	6.0	2256	1.0163	0.6622
0.8628	7.0	2632	1.0209	0.6551
0.8493	8.0	3008	1.0525	0.6582
0.8371	9.0	3384	1.0409	0.6515
0.8229	10.0	3760	1.0597	0.6523