ast-finetuned-audiosetオープンソースオーディオ分類モデル - 音楽ジャンルの分類タスクを高精度に達成

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

vineetsharmaによって開発

ASTアーキテクチャに基づくオーディオ分類モデルで、GTZANデータセットでファインチューニングされ、音楽ジャンル分類タスクに使用されます

ダウンロード数 14

リリース時間 : 7/2/2023

モデル概要

このモデルはAudio Spectrogram Transformer (AST)アーキテクチャに基づくオーディオ分類モデルで、最初にAudioSetデータセットで事前トレーニングされ、その後GTZAN音楽データセットでファインチューニングされ、音楽ジャンル分類タスク専用に設計されています。

高精度

GTZANテストセットで91%の精度を達成

Transformerアーキテクチャベース

Audio Spectrogram Transformerを使用してオーディオスペクトル特徴を処理

2段階トレーニング

最初にAudioSet大規模データセットで事前トレーニング、その後GTZAN音楽データセットでファインチューニング

音楽ジャンル分類

オーディオ特徴抽出

スペクトル分析

音楽分析

音楽ジャンル自動分類

音楽クリップをジャンル別に分類

精度91%

音楽推薦システム

音楽推薦システムの特徴抽出コンポーネントとして使用

オーディオ処理

オーディオコンテンツ分析

オーディオコンテンツの特徴を分析