ai-light-dance_chord_ft_wav2vec2オープンソース音声認識モデル - 音声内容を正確に認識し、無料で便利！

Ai Light Dance Chord Ft Wav2vec2 Large Xlsr 53

gary109によって開発

このモデルはfacebook/wav2vec2-large-xlsr-53をベースに、GARY109/AI_Light_Dance - ONSET-CHORD2データセットでファインチューニングした自動音声認識モデルです。

ダウンロード数 46

リリース時間 : 6/23/2022

モデル概要

これはwav2vec2-large-xlsr-53アーキテクチャを基にした自動音声認識(ASR)のためのファインチューニングモデルで、特定のデータセットで最適化されています。

大規模事前学習モデルに基づくファインチューニング

facebook/wav2vec2-large-xlsr-53という強力な事前学習モデルを基にファインチューニングされており、優れた音声認識の基礎能力を備えています

特定領域向け最適化

GARY109/AI_Light_Dance - ONSET-CHORD2データセットでファインチューニングされており、特定の分野や応用シナリオ向けに最適化されている可能性があります

漸進的なトレーニング効果

トレーニング結果から、モデルは50エポックのトレーニングで損失を徐々に減少させ、安定した学習プロセスを示しています

音声からテキストへの変換

自動音声認識

音声処理

音楽関連音声認識

音楽関連分野の音声認識タスク、特にコード認識に適用可能

このモデルは、facebook/wav2vec2-large-xlsr-53 を GARY109/AI_LIGHT_DANCE - ONSET-CHORD2 データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは自動音声認識タスクに使用できます。以下に評価セットでの結果を示します。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

詳細情報は後日提供予定です。

学習中に使用されたハイパーパラメータは以下の通りです。

学習損失	エポック	ステップ	検証損失	単語誤り率 (Wer)
5.1857	1.0	126	4.5913	1.0
3.0939	2.0	252	3.0160	1.0
2.8403	3.0	378	2.7337	1.0
2.2525	4.0	504	2.5588	0.9825
2.0291	5.0	630	2.5216	0.9701
1.9083	6.0	756	2.3990	0.9514
1.8745	7.0	882	2.2781	0.9474
1.8222	8.0	1008	2.2360	0.9471
1.7871	9.0	1134	2.1960	0.9463
1.7225	10.0	1260	2.0775	0.9464
1.6856	11.0	1386	2.0817	0.9518
1.6903	12.0	1512	2.0607	0.9534
1.6034	13.0	1638	1.9956	0.9504
1.6171	14.0	1764	2.0099	0.9490
1.5508	15.0	1890	2.0424	0.9591
1.539	16.0	2016	1.9728	0.9600
1.5176	17.0	2142	2.0421	0.9628
1.5088	18.0	2268	1.9428	0.9598
1.4739	19.0	2394	1.9886	0.9591
1.4228	20.0	2520	2.0164	0.9670
1.4277	21.0	2646	1.9968	0.9704
1.3834	22.0	2772	1.9882	0.9669
1.3768	23.0	2898	1.9519	0.9606
1.3747	24.0	3024	1.8923	0.9580
1.3533	25.0	3150	1.9767	0.9707
1.3312	26.0	3276	1.8993	0.9609
1.2743	27.0	3402	1.9494	0.9705
1.2924	28.0	3528	1.9019	0.9631
1.2621	29.0	3654	1.9110	0.9596
1.2387	30.0	3780	1.9118	0.9627
1.228	31.0	3906	1.8722	0.9590
1.1938	32.0	4032	1.8890	0.9599
1.1887	33.0	4158	1.9175	0.9653
1.1807	34.0	4284	1.8983	0.9649
1.1553	35.0	4410	1.9246	0.9703
1.1448	36.0	4536	1.9248	0.9705
1.1146	37.0	4662	1.9747	0.9804
1.1394	38.0	4788	1.9119	0.9723
1.1206	39.0	4914	1.8931	0.9630
1.0892	40.0	5040	1.9243	0.9668
1.104	41.0	5166	1.8965	0.9671
1.054	42.0	5292	1.9477	0.9755
1.0922	43.0	5418	1.8969	0.9699
1.0484	44.0	5544	1.9423	0.9733
1.0567	45.0	5670	1.9412	0.9745
1.0615	46.0	5796	1.9076	0.9674
1.0201	47.0	5922	1.9384	0.9743
1.0664	48.0	6048	1.9509	0.9816
1.0498	49.0	6174	1.9426	0.9757
1.0303	50.0	6300	1.9477	0.9781