AI-Light-Dance_Singing2_ft_Wav2vec2オープンソース音声認識モデル - 無料でデプロイして音声内容を高精度に認識

Ai Light Dance Singing2 Ft Wav2vec2 Large Xlsr 53 5gram V4 2

gary109によって開発

wav2vec2-large-xlsr-53モデルをファインチューニングした自動音声認識モデルで、GARY109/AI_LIGHT_DANCEデータセットでトレーニング済み

ダウンロード数 68

リリース時間 : 6/29/2022

モデル概要

このモデルは音声認識タスク用のファインチューニング版で、特に歌唱音声に最適化されています

歌唱音声認識の最適化

歌唱音声に特化してファインチューニングされており、音楽関連の音声認識でより良い性能を発揮する可能性があります

wav2vec2アーキテクチャ採用

先進的なwav2vec2-large-xlsr-53アーキテクチャを採用しており、優れた音声認識基盤を有しています

低単語誤り率

評価データセットで9.1%の単語誤り率を達成し、良好な性能を示しています

音声からテキストへの変換

歌唱音声認識

音楽アプリケーション

歌詞書き起こし

歌唱録音を自動的に歌詞テキストに変換

単語誤り率約9.1%

音声認識

音声文字起こし

音声内容を文字に変換

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
0.2664	1.0	8969	0.3347	0.1645
0.2032	2.0	17938	0.3170	0.1662
0.1888	3.0	26907	0.3188	0.1317
0.1774	4.0	35876	0.2885	0.1195
0.0696	5.0	44845	0.2703	0.1105
0.254	6.0	53814	0.2817	0.0972
0.0464	7.0	62783	0.2691	0.0910
0.0426	8.0	71752	0.3033	0.0875
0.035	9.0	80721	0.3150	0.0841
0.0274	10.0	89690	0.3073	0.0816

プロパティ	詳細
モデルタイプ	ai-light-dance_singing2_ft_wav2vec2-large-xlsr-53-5gram-v4-2
学習データ	GARY109/AI_LIGHT_DANCE - ONSET-SINGING2データセット