whisper-base-finetuned-gtzanオープンソース音声分類モデル - 無料でデプロイして音楽ジャンルを高精度で識別

Whisper Base Finetuned Gtzan

vineetsharmaによって開発

OpenAIのwhisper-baseモデルをGTZANデータセットでファインチューニングした音声分類モデルで、主に音楽ジャンル分類タスクに使用されます。

ダウンロード数 15

リリース時間 : 7/3/2023

モデル概要

このモデルはwhisper-baseアーキテクチャのバリアントで、音楽ジャンル分類タスクに特化して最適化されています。GTZANデータセットで87%の精度を達成しました。

高精度

GTZANテストセットで87%の分類精度を達成

ファインチューニング最適化

whisper-baseモデルを音楽分類タスク向けに特別に最適化

軽量

whisper-baseアーキテクチャベースで比較的軽量（推論）

音楽ジャンル分類

音声特徴抽出

音楽分析

音楽ジャンル自動分類

音楽クリップをジャンル分類

精度87%

音楽推薦システム

音楽推薦システムの前処理コンポーネントとして

トレーニング損失	エポック	ステップ	検証損失	正確度
0.9075	1.0	57	1.0000	0.58
0.4569	2.0	114	0.6073	0.83
0.3761	3.0	171	0.6410	0.8
0.3049	4.0	228	0.4536	0.86
0.0284	5.0	285	0.5120	0.85
0.0165	6.0	342	0.4856	0.89
0.0087	7.0	399	0.6814	0.87
0.0038	8.0	456	0.7059	0.85
0.0032	9.0	513	0.6831	0.87
0.0034	10.0	570	0.6867	0.87