ai-light-dance_stepmania_ft_wav2vec2-large-xlsr-53-v2オープンソースモデル

Ai Light Dance Stepmania Ft Wav2vec2 Large Xlsr 53 V2

gary109によって開発

このモデルは、GARY109/AI_LIGHT_DANCEデータセットでwav2vec2-large-xlsr-53をファインチューニングした自動音声認識モデルです

ダウンロード数 166

リリース時間 : 6/24/2022

モデル概要

これは自動音声認識(ASR)のためのモデルで、特に音楽リズムゲームのシナリオに最適化されており、音声をテキストに変換できます

音楽リズムゲーム最適化

音楽リズムゲームのシナリオに特化してファインチューニングされており、ゲーム内の音声特徴の処理に適している可能性があります

wav2vec2アーキテクチャベース

強力なwav2vec2-large-xlsr-53をベースモデルとして使用しており、優れた音声認識能力を備えています

音声からテキストへの変換

音楽リズム認識

ゲーム開発

リズムゲーム音声制御

音楽リズムゲームで音声制御機能を実現するために使用されます

音楽分析

音楽ビート認識

音楽のビートとリズムパターンを分析します

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.945	1.0	150	1.0767	0.7282
0.9445	2.0	300	1.0773	0.7165
0.9392	3.0	450	1.0813	0.7141
0.933	4.0	600	1.0858	0.7032
0.921	5.0	750	1.0753	0.7017
0.9241	6.0	900	1.0787	0.6976
0.9282	7.0	1050	1.0825	0.6959
0.9184	8.0	1200	1.0760	0.6930
0.915	9.0	1350	1.0773	0.6906
0.9094	10.0	1500	1.0786	0.6900