wav2vec2-base-100k-gtzan-music-genres開源音頻模型

首頁

Wav2vec2 Base 100k Gtzan Music Genres

由m3hrdadfi開發

基於Wav2Vec 2.0架構的音頻分類模型，專門用於音樂流派識別

音頻分類

Transformers

#音頻分類 #高精度音樂識別 #Wav2Vec2遷移學習

下載量 405

發布時間 : 3/2/2022

模型概述

該模型使用Wav2Vec 2.0架構進行音樂流派分類，能夠識別10種不同的音樂流派，包括藍調、古典、鄉村、迪斯科等。

模型特點

高精度流派識別

在GTZAN數據集上表現出色，對迪斯科等流派的識別準確率高達99.8%

基於Wav2Vec 2.0架構

利用先進的語音表示學習架構，有效提取音頻特徵

多流派分類

支持10種不同音樂流派的分類

模型能力

音樂流派識別

音頻特徵提取

音頻分類

使用案例

音樂推薦系統

自動音樂分類

為音樂庫中的曲目自動添加流派標籤

準確率高達77.5%的流派分類能力

音樂分析

音樂內容分析

分析音樂音頻特徵，識別其所屬流派

提供詳細的流派概率分佈

🚀 使用Wav2Vec 2.0進行音樂流派分類

本項目利用Wav2Vec 2.0實現音樂流派分類，能夠準確識別不同音樂的流派，為音樂分析和推薦等領域提供支持。

🚀 快速開始

🔧 環境準備

運行此項目需要安裝以下依賴包，可使用以下命令進行安裝：

# 安裝所需的包
!pip install git+https://github.com/huggingface/datasets.git
!pip install git+https://github.com/huggingface/transformers.git
!pip install torchaudio
!pip install librosa

💻 使用示例

基礎用法

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchaudio
from transformers import AutoConfig, Wav2Vec2FeatureExtractor

import librosa
import IPython.display as ipd
import numpy as np
import pandas as pd

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name_or_path = "m3hrdadfi/wav2vec2-base-100k-voxpopuli-gtzan-music"
config = AutoConfig.from_pretrained(model_name_or_path)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
sampling_rate = feature_extractor.sampling_rate
model = Wav2Vec2ForSpeechClassification.from_pretrained(model_name_or_path).to(device)

def speech_file_to_array_fn(path, sampling_rate):
    speech_array, _sampling_rate = torchaudio.load(path)
    resampler = torchaudio.transforms.Resample(_sampling_rate)
    speech = resampler(speech_array).squeeze().numpy()
    return speech


def predict(path, sampling_rate):
    speech = speech_file_to_array_fn(path, sampling_rate)
    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
    inputs = {key: inputs[key].to(device) for key in inputs}

    with torch.no_grad():
        logits = model(**inputs).logits

    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
    outputs = [{"Label": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
    return outputs

path = "genres_original/disco/disco.00067.wav"
outputs = predict(path, sampling_rate)

[
{'Label': 'blues', 'Score': '0.0%'},
{'Label': 'classical', 'Score': '0.0%'},
{'Label': 'country', 'Score': '0.0%'},
{'Label': 'disco', 'Score': '99.8%'},
{'Label': 'hiphop', 'Score': '0.0%'},
{'Label': 'jazz', 'Score': '0.0%'},
{'Label': 'metal', 'Score': '0.0%'},
{'Label': 'pop', 'Score': '0.0%'},
{'Label': 'reggae', 'Score': '0.0%'},
{'Label': 'rock', 'Score': '0.0%'}
]

📊 評估結果

以下表格總結了模型在整體和每個類別上的得分：

標籤	精確率	召回率	F1分數	樣本數
blues	0.792	0.950	0.864	20
classical	0.864	0.950	0.905	20
country	0.812	0.650	0.722	20
disco	0.778	0.700	0.737	20
hiphop	0.933	0.700	0.800	20
jazz	1.000	0.850	0.919	20
metal	0.783	0.900	0.837	20
pop	0.917	0.550	0.687	20
reggae	0.543	0.950	0.691	20
rock	0.611	0.550	0.579	20
accuracy	0.775	0.775	0.775	0
macro avg	0.803	0.775	0.774	200
weighted avg	0.803	0.775	0.774	200