ast-finetuned-audiosetオープンソース音声分類モデル - 音楽ジャンルを精度良く識別、精度は92%に達する

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

Bhanu9Prakashによって開発

これはAST(Audio Spectrogram Transformer)アーキテクチャに基づくオーディオ分類モデルで、GTZAN音楽ジャンル分類データセットでファインチューニングされ、92%の精度を達成しています。

ダウンロード数 50

リリース時間 : 7/11/2023

モデル概要

このモデルは音楽ジャンル分類タスク専用で、10種類の異なる音楽タイプを識別できます。ASTアーキテクチャに基づき、AudioSetデータセットで事前学習後、GTZANデータセットでファインチューニングされました。

高精度

GTZANテストセットで92%の分類精度を達成

Transformerアーキテクチャベース

AST(Audio Spectrogram Transformer)アーキテクチャを採用しオーディオスペクトルを処理

2段階トレーニング

まずAudioSet大規模データセットで事前学習し、その後GTZANデータセットでファインチューニング

音楽ジャンル分類

オーディオ特徴抽出

オーディオ内容分析

音楽サービス

音楽自動分類

音楽ストリーミングプラットフォーム向けにアップロードされた音楽ファイルを自動分類

10種類の音楽ジャンルを正確に識別

音楽分析

音楽推薦システム

音楽内容に基づく特徴抽出と分類

推薦システムの内容理解能力を向上

プロパティ	詳細
モデルタイプ	オーディオ分類モデル
学習データセット	marsyas/gtzan
評価指標	精度
モデル名	ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan
タスク	オーディオ分類
評価データセット	GTZAN (marsyas/gtzan, all, train)
精度	0.92