ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3オープンソースモデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V3

gary109によって開発

wav2vec2-large-xlsr-53ベースの自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでファインチューニング済み

ダウンロード数 191

リリース時間 : 6/25/2022

モデル概要

このモデルはStepmaniaゲーム音声に最適化された自動音声認識モデルで、主にゲーム内の音声コマンドやリズムポイントの認識に使用されます。

高精度音声認識

wav2vec2-large-xlsr-53アーキテクチャに基づき、高い音声認識精度を提供

ゲーム音声最適化

Stepmaniaゲーム音声に特化してファインチューニングされており、ゲームシナリオに適しています

複数回のトレーニング最適化

10回のトレーニングを経て、モデルの性能が段階的に向上し安定化しました

自動音声認識

ゲーム音声処理

リズムポイント検出

ゲームアプリケーション

Stepmaniaゲームコマンド認識

ゲーム内の音声コマンドを認識し、ゲーム操作を補助します

単語誤り率0.6928

ゲームリズム分析

ゲーム音声内のリズムポイントを分析し、ゲーム補助ツール開発に活用します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.9189	1.0	188	1.0770	0.7002
0.9172	2.0	376	1.0780	0.6955
0.9177	3.0	564	1.0824	0.6916
0.9184	4.0	752	1.0734	0.6928
0.9072	5.0	940	1.0841	0.6897
0.9089	6.0	1128	1.0788	0.6870
0.9174	7.0	1316	1.0761	0.6856
0.9072	8.0	1504	1.0776	0.6850
0.9079	9.0	1692	1.0795	0.6852
0.9016	10.0	1880	1.0817	0.6850