Wav2vec2-base Open-source Audio Classification Model - Free Deployment for Precise Classification of Music and Voice

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

Developed by 0bi0n3

Audio classification model based on wav2vec2 architecture, fine-tuned on the GTZAN dataset for music and speech classification tasks

Audio Classification

Transformers

Open Source License:Apache-2.0 #Audio Classification #Music Speech Recognition #High Accuracy

Downloads 15

Release Time : 9/16/2023

Model Overview

This model is an audio classification model based on the wav2vec2 architecture, specifically fine-tuned for music and speech classification tasks. It achieved an accuracy of 85% on the GTZAN dataset.

Model Features

High Accuracy

Achieves 85% classification accuracy on the GTZAN dataset

Based on wav2vec2 Architecture

Utilizes the advanced wav2vec2 architecture for audio feature extraction and classification

Music/Speech Classification

Specifically optimized for music and speech classification tasks

Model Capabilities

Audio Classification

Music Recognition

Speech Recognition

Use Cases

Audio Content Analysis

Music Streaming Classification

Automatically identifies music content in audio streams

85% accuracy

Speech Content Detection

Identifies speech content in mixed audio

Training Loss	Epoch	Step	Validation Loss	Accuracy
2.0009	1.0	56	1.8533	0.31
1.4898	1.99	112	1.3633	0.45
1.1394	2.99	168	1.1963	0.61
0.9214	4.0	225	0.8506	0.73
0.6922	5.0	281	0.8479	0.78
0.687	5.99	337	0.7577	0.81
0.5052	6.99	393	0.7833	0.78
0.3733	8.0	450	0.6448	0.83
0.2137	9.0	506	0.5698	0.83
0.2863	9.96	560	0.6167	0.85

Property	Details
Base Model	FerhatDk/wav2vec2-base_music_speech_both_classification
Tags	generated_from_trainer
Datasets	marsyas/gtzan
Metrics	accuracy
Model Name	wav2vec2-base_music_speech_both_classification-finetuned-gtzan
Task	Audio Classification
Dataset Name	GTZAN
Dataset Type	marsyas/gtzan
Dataset Config	all
Dataset Split	train
Dataset Args	all
Accuracy	0.85

Featured Recommended AI Models

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

Model Overview

Model Features

Model Capabilities

Use Cases

🚀 wav2vec2-base_music_speech_both_classification-finetuned-gtzan

🚀 Quick Start

📚 Documentation

Model description

Intended uses & limitations

Training and evaluation data

🔧 Technical Details

Training procedure

Training hyperparameters

Training results

Framework versions

📄 License