ast - finetuned - audiosetオープンソースオーディオ分類モデル - 無料でデプロイ、音楽ジャンルを正確に識別

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

wkCircleによって開発

このモデルはAudio Spectrogram Transformer (AST)アーキテクチャに基づくオーディオ分類モデルで、Audiosetデータセットで事前学習された後、GTZAN音楽ジャンル分類データセットでファインチューニングされています。

音声分類

Transformers

オープンソースライセンス:Bsd-3-clause #オーディオ分類 #高精度 #音楽ジャンル識別

ダウンロード数 8

リリース時間 : 2/2/2025

モデル概要

これはオーディオ分類のためのTransformerモデルで、特に音楽ジャンル分類タスクに適しています。モデルはGTZANデータセットでファインチューニング後、91%の精度を達成しました。

モデル特徴

高精度

GTZAN音楽ジャンル分類タスクで91%の精度を達成

Transformerアーキテクチャベース

Audio Spectrogram Transformerアーキテクチャを採用し、オーディオスペクトログラムを専門的に処理

転移学習

まずAudioset大規模データセットで事前学習し、その後GTZANでファインチューニング

モデル能力

オーディオ分類

音楽ジャンル識別

オーディオ特徴抽出

使用事例

音楽分析

音楽ジャンル分類

音楽クリップのジャンルカテゴリを自動識別

GTZANデータセットで91%の精度を達成

オーディオコンテンツ分析

オーディオコンテンツ分類

オーディオクリップを分類してタグ付け

🚀 ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan

このモデルは、GTZANデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.4517
正解率: 0.91

📚 ドキュメント

モデルの説明

詳細情報は後日追加予定です。

想定される用途と制限

詳細情報は後日追加予定です。

トレーニングと評価データ

詳細情報は後日追加予定です。

トレーニング手順

トレーニングハイパーパラメータ

トレーニング中に以下のハイパーパラメータが使用されました。

learning_rate: 5e-05
train_batch_size: 2
eval_batch_size: 2
seed: 42
gradient_accumulation_steps: 4
total_train_batch_size: 8
optimizer: betas=(0.9,0.999) かつ epsilon=1e-08 の OptimizerNames.ADAMW_TORCH を使用。追加のオプティマイザ引数はありません。
lr_scheduler_type: linear
lr_scheduler_warmup_ratio: 0.1
num_epochs: 15
mixed_precision_training: Native AMP

トレーニング結果

トレーニング損失	エポック	ステップ	検証損失	正解率
1.3017	1.0	113	0.6180	0.78
0.5478	2.0	226	0.8031	0.77
0.3357	3.0	339	0.6511	0.87
0.1565	4.0	452	0.6858	0.87
0.0628	5.0	565	0.5638	0.86
0.0466	6.0	678	0.4399	0.91
0.0108	7.0	791	0.5120	0.88
0.0094	8.0	904	0.4854	0.89
0.0069	9.0	1017	0.4865	0.91
0.0061	10.0	1130	0.4674	0.91
0.0052	11.0	1243	0.4565	0.91
0.0027	12.0	1356	0.4557	0.91
0.0042	13.0	1469	0.4534	0.91
0.0028	14.0	1582	0.4523	0.91
0.0026	14.8711	1680	0.4517	0.91

フレームワークのバージョン

Transformers 4.48.2
Pytorch 2.6.0+cu126
Datasets 3.2.0
Tokenizers 0.21.0

📄 ライセンス

このモデルはBSD 3条項ライセンスの下で提供されています。

属性	详情
モデルタイプ	このモデルは、GTZANデータセット上でMIT/ast-finetuned-audioset-10-10-0.4593をファインチューニングしたバージョンです。
トレーニングデータ	marsyas/gtzanデータセットが使用されました。
評価指標	正解率が評価指標として使用されました。