ast-finetuned-audiosetオープンソースのオーディオ分類モデル - GTZANベースで微調整、精度は88%に達する

ホーム

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

abnerhによって開発

このモデルはAudio Spectrogram Transformer (AST)をGTZAN音楽分類データセットでファインチューニングしたバージョンで、オーディオ分類タスクに使用され、精度は88%です。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #高精度 #音楽ジャンル認識

ダウンロード数 2

リリース時間 : 10/16/2024

モデル概要

これはTransformerアーキテクチャに基づくオーディオ分類モデルで、音楽ジャンル分類タスクに特化してファインチューニングされています。

モデル特徴

高精度

GTZANデータセットで88%の分類精度を達成

Transformerアーキテクチャベース

Audio Spectrogram Transformerアーキテクチャを採用し、オーディオ信号処理に適している

事前学習+ファインチューニング

まずAudioSetデータセットで事前学習し、その後GTZANデータセットでファインチューニング

モデル能力

音楽ジャンル分類

オーディオ特徴抽出

オーディオ信号分析

使用事例

音楽分析

音楽ジャンル自動分類

オーディオファイルの音楽ジャンルを自動識別

精度88%

音楽推薦システム

音楽推薦システムの特徴抽出コンポーネントとして使用

オーディオ処理

オーディオ内容分析

オーディオ内容の特徴を分析

🚀 ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan

このモデルは、GTZANデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4169
正解率: 0.88

🚀 クイックスタート

このモデルは、GTZANデータセット上での音声分類タスクに最適化されています。以下に、評価セットでの結果を示します。

📚 ドキュメント

モデルの詳細

このモデルは、GTZANデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593をファインチューニングしたものです。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

🔧 技術詳細

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

learning_rate: 5e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 10
mixed_precision_training: Native AMP

学習結果

学習損失	エポック	ステップ	検証損失	正解率
0.8145	1.0	113	0.5792	0.8
0.3418	2.0	226	0.6835	0.78
0.0731	3.0	339	0.8945	0.69
0.074	4.0	452	0.5540	0.85
0.0023	5.0	565	0.5311	0.85
0.0004	6.0	678	0.4524	0.87
0.0003	7.0	791	0.4318	0.89
0.0001	8.0	904	0.4217	0.88
0.0001	9.0	1017	0.4192	0.88
0.0001	10.0	1130	0.4169	0.88

フレームワークのバージョン

Transformers 4.44.2
Pytorch 2.4.1+cu121
Datasets 3.0.1
Tokenizers 0.19.1

📄 ライセンス

このモデルはBSD 3条項ライセンスの下で提供されています。

その他の情報

属性	詳情
モデルタイプ	このモデルは、GTZANデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593をファインチューニングしたものです。
学習データ	marsyas/gtzan
メトリクス	正解率
モデル名	ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan
タスク	音声分類
データセット	GTZAN
評価結果	損失: 0.4169, 正解率: 0.88