AI軽舞ステップマニア_ft_wav2vec2-large-xlsr-53-v4オープンソース音声認識モデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V4

gary109によって開発

このモデルは、gary109/ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v3を基に、GARY109/AI_LIGHT_DANCE - ONSET-STEPMANIA2データセットで微調整された自動音声認識モデルです。

ダウンロード数 189

リリース時間 : 6/26/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、wav2vec2-large-xlsr-53アーキテクチャを基に微調整されており、音楽のリズムに関連する音声認識タスクの処理に主に使用されます。

wav2vec2-large-xlsr-53に基づく微調整

強力なwav2vec2-large-xlsr-53アーキテクチャをベースモデルとして使用し、特定のタスク向けに最適化されています

音楽リズム関連の音声認識

音楽のリズムに関連する音声認識タスクに特化して訓練されています

継続的な改善バージョン

これはv4バージョンで、前世代のv3バージョンからさらに最適化されています

音声認識

音楽リズム関連音声処理

音楽ゲーム

StepManiaゲーム音声認識

音楽ゲームStepManiaの音声コマンドを認識するために使用されます

音楽教育

リズムトレーニング支援

音楽学習者がリズムコマンドを認識し追従するのを支援します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.9218	1.0	188	1.0718	0.6958
0.9194	2.0	376	1.0354	0.6937
0.9077	3.0	564	1.0365	0.6730
0.8956	4.0	752	1.0497	0.6727
0.877	5.0	940	1.0299	0.6694
0.8736	6.0	1128	1.0298	0.6642
0.8769	7.0	1316	1.0348	0.6584
0.8571	8.0	1504	1.0689	0.6602
0.8573	9.0	1692	1.0559	0.6549
0.8458	10.0	1880	1.0706	0.6588