wav2vec2-base-finetuned-gtzanオープンソースオーディオ分類モデル

Wav2vec2 Base Finetuned Gtzan

wilson-weiによって開発

このモデルはfacebook/wav2vec2-baseをGTZANデータセットでファインチューニングしたオーディオ分類モデルで、主に音楽ジャンル分類タスクに使用されます。

ダウンロード数 14

リリース時間 : 7/29/2023

モデル概要

wav2vec2アーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされており、10種類の異なる音楽ジャンルを識別できます。

高精度

GTZANテストセットで84%の精度を達成

wav2vec2アーキテクチャベース

自己教師あり学習で事前訓練された音声表現モデルを利用

軽量

wav2vec2-baseバージョンに基づき、比較的小さい

音楽ジャンル分類

オーディオ特徴抽出

音楽分析

音楽ジャンル自動分類

音楽クリップを自動的にジャンル分類

84%精度

音楽推薦システム

音楽推薦システムの特徴抽出コンポーネントとして使用

トレーニング損失	エポック	ステップ	検証損失	正解率
1.9838	1.0	113	1.8627	0.37
1.6128	2.0	226	1.5998	0.48
1.0259	3.0	339	1.3821	0.57
1.2766	4.0	452	1.1708	0.66
0.6014	5.0	565	0.7257	0.77
0.5815	6.0	678	1.0738	0.68
0.7664	7.0	791	0.7244	0.8
0.2303	8.0	904	0.5838	0.84
0.4829	9.0	1017	0.5741	0.87
0.0859	10.0	1130	0.6199	0.83
0.2983	11.0	1243	0.8117	0.84
0.0642	12.0	1356	0.5938	0.88
0.0688	13.0	1469	0.9978	0.84
0.1542	14.0	1582	0.7437	0.85
0.0117	15.0	1695	0.9100	0.84
0.039	16.0	1808	0.7757	0.85
0.0661	17.0	1921	0.8879	0.84