AIライトダンス_StepMania_FT_Wav2Vec2-large-xlsr-53-v6オープンソースモデル

ホーム

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V6

gary109によって開発

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルです。

音声認識

Transformers

オープンソースライセンス:Apache-2.0 #リズムゲーム音声認識 #XLSR-53ファインチューニング #低単語誤り率

ダウンロード数 160

リリース時間 : 6/28/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、Stepmaniaゲームのオーディオデータに特化して最適化されています。

モデル特徴

wav2vec2アーキテクチャベース

wav2vec2-large-xlsr-53をベースモデルとして使用し、優れた音声認識能力を備えています

ゲームオーディオ向け最適化

Stepmaniaゲームオーディオデータセットで特別にファインチューニングされており、ゲームシナリオの音声認識に適しています

マルチエポックトレーニング

10エポックのトレーニングを経て、検証損失は約1.0で安定し、単語誤り率は約0.65です

モデル能力

音声認識

オーディオ文字起こし

ゲームオーディオ処理

使用事例

ゲーム

Stepmaniaゲーム音声認識

Stepmaniaゲーム内の音声コマンドを認識

単語誤り率約0.65

音声文字起こし

ゲームオーディオ文字起こし

ゲーム内の音声コンテンツをテキストに変換

🚀 ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v6

このモデルは、GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットでgary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v5をファインチューニングしたバージョンです。評価セットで以下の結果を達成しています。

損失: 1.0063
単語誤り率 (Wer): 0.6580

🚀 クイックスタート

このモデルは、音声認識タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

📚 ドキュメント

モデルの説明

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

訓練と評価データ

詳細な情報は後日提供予定です。

訓練手順

訓練ハイパーパラメータ

訓練中に以下のハイパーパラメータが使用されました。

学習率 (learning_rate): 4e-05
訓練バッチサイズ (train_batch_size): 8
評価バッチサイズ (eval_batch_size): 8
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 8
総訓練バッチサイズ (total_train_batch_size): 64
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): 線形 (linear)
学習率スケジューラのウォームアップステップ数 (lr_scheduler_warmup_steps): 100
エポック数 (num_epochs): 10.0
混合精度訓練 (mixed_precision_training): Native AMP

訓練結果

訓練損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.8572	1.0	376	1.0508	0.6601
0.8671	2.0	752	1.0755	0.6581
0.8578	3.0	1128	1.0152	0.6787
0.8552	4.0	1504	1.0537	0.6557
0.8354	5.0	1880	1.0386	0.6606
0.8543	6.0	2256	1.0063	0.6580
0.8556	7.0	2632	1.0487	0.6499
0.8356	8.0	3008	1.0407	0.6549
0.8227	9.0	3384	1.0382	0.6506
0.8148	10.0	3760	1.0440	0.6500