AST - Finetuned - AudioSet Open - Source Audio Classification Model - Free Deployment for Precise Music Genre Recognition

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

Developed by wkCircle

This model is an audio classification model based on the Audio Spectrogram Transformer (AST) architecture. After pre-training on the Audioset dataset, it was fine-tuned on the GTZAN music genre classification dataset.

Audio Classification

Transformers

Open Source License:Bsd-3-clause #Audio classification #High accuracy #Music genre recognition

Downloads 8

Release Time : 2/2/2025

Model Overview

This is a Transformer model for audio classification, especially suitable for music genre classification tasks. After fine-tuning on the GTZAN dataset, the model achieved an accuracy of 91%.

Model Features

High accuracy

Achieved an accuracy of 91% on the GTZAN music genre classification task

Based on the Transformer architecture

Adopts the Audio Spectrogram Transformer architecture to specifically handle audio spectrograms

Transfer learning

Pre-trained on the large-scale Audioset dataset first and then fine-tuned on GTZAN

Model Capabilities

Audio classification

Music genre recognition

Audio feature extraction

Use Cases

Music analysis

Music genre classification

Automatically identify the genre category of a music segment

Achieved an accuracy of 91% on the GTZAN dataset

Audio content analysis

Audio content classification

Classify and label audio segments

Training Loss	Epoch	Step	Validation Loss	Accuracy
1.3017	1.0	113	0.6180	0.78
0.5478	2.0	226	0.8031	0.77
0.3357	3.0	339	0.6511	0.87
0.1565	4.0	452	0.6858	0.87
0.0628	5.0	565	0.5638	0.86
0.0466	6.0	678	0.4399	0.91
0.0108	7.0	791	0.5120	0.88
0.0094	8.0	904	0.4854	0.89
0.0069	9.0	1017	0.4865	0.91
0.0061	10.0	1130	0.4674	0.91
0.0052	11.0	1243	0.4565	0.91
0.0027	12.0	1356	0.4557	0.91
0.0042	13.0	1469	0.4534	0.91
0.0028	14.0	1582	0.4523	0.91
0.0026	14.8711	1680	0.4517	0.91

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Ast Finetuned Audioset 10 10 0.4593 Finetuned Gtzan

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 ast-finetuned-audioset-10-10-0.4593-finetuned-gtzan

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

🔧 Technical Details

Training procedure

Training hyperparameters

Training results

Framework versions

📄 License