wav2vec2-base-100k-gtzan-music-genresオープンソースオーディオモデル

ホーム

Wav2vec2 Base 100k Gtzan Music Genres

m3hrdadfiによって開発

Wav2Vec 2.0アーキテクチャに基づくオーディオ分類モデル、音楽ジャンル識別専用

音声分類

Transformers

#オーディオ分類 #高精度音楽認識 #Wav2Vec2転移学習

ダウンロード数 405

リリース時間 : 3/2/2022

モデル概要

このモデルはWav2Vec 2.0アーキテクチャを使用して音楽ジャンルを分類し、ブルース、クラシック、カントリー、ディスコなど10種類の異なる音楽ジャンルを識別できます。

モデル特徴

高精度ジャンル識別

GTZANデータセットで優れた性能を発揮し、ディスコなどのジャンルで99.8%の高い識別精度を達成

Wav2Vec 2.0アーキテクチャベース

先進的な音声表現学習アーキテクチャを活用し、効果的にオーディオ特徴を抽出

マルチジャンル分類

10種類の異なる音楽ジャンルの分類をサポート

モデル能力

音楽ジャンル識別

オーディオ特徴抽出

オーディオ分類

使用事例

音楽推薦システム

自動音楽分類

音楽ライブラリのトラックに自動的にジャンルタグを追加

77.5%の高い精度のジャンル分類能力

音楽分析

音楽コンテンツ分析

音楽オーディオ特徴を分析し、所属ジャンルを識別

詳細なジャンル確率分布を提供

🚀 Wav2Vec 2.0を用いた音楽ジャンル分類

このプロジェクトは、Wav2Vec 2.0を使用して音楽のジャンルを分類するものです。高精度な音声認識技術を活用し、音楽のジャンルを自動的に判別することができます。

🚀 クイックスタート

📦 インストール

必要なパッケージをインストールします。

# requirement packages
!pip install git+https://github.com/huggingface/datasets.git
!pip install git+https://github.com/huggingface/transformers.git
!pip install torchaudio
!pip install librosa

💻 使用例

基本的な使用法

必要なライブラリをインポートします。

import torch
import torch.nn as nn
import torch.nn.functional as F
import torchaudio
from transformers import AutoConfig, Wav2Vec2FeatureExtractor

import librosa
import IPython.display as ipd
import numpy as np
import pandas as pd

モデルと特徴抽出器を初期化します。

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name_or_path = "m3hrdadfi/wav2vec2-base-100k-voxpopuli-gtzan-music"
config = AutoConfig.from_pretrained(model_name_or_path)
feature_extractor = Wav2Vec2FeatureExtractor.from_pretrained(model_name_or_path)
sampling_rate = feature_extractor.sampling_rate
model = Wav2Vec2ForSpeechClassification.from_pretrained(model_name_or_path).to(device)

音声ファイルを配列に変換する関数と予測関数を定義します。

def speech_file_to_array_fn(path, sampling_rate):
    speech_array, _sampling_rate = torchaudio.load(path)
    resampler = torchaudio.transforms.Resample(_sampling_rate)
    speech = resampler(speech_array).squeeze().numpy()
    return speech


def predict(path, sampling_rate):
    speech = speech_file_to_array_fn(path, sampling_rate)
    inputs = feature_extractor(speech, sampling_rate=sampling_rate, return_tensors="pt", padding=True)
    inputs = {key: inputs[key].to(device) for key in inputs}

    with torch.no_grad():
        logits = model(**inputs).logits

    scores = F.softmax(logits, dim=1).detach().cpu().numpy()[0]
    outputs = [{"Label": config.id2label[i], "Score": f"{round(score * 100, 3):.1f}%"} for i, score in enumerate(scores)]
    return outputs

音声ファイルのパスを指定して予測を実行します。

path = "genres_original/disco/disco.00067.wav"
outputs = predict(path, sampling_rate)

予測結果を表示します。

[
{'Label': 'blues', 'Score': '0.0%'},
{'Label': 'classical', 'Score': '0.0%'},
{'Label': 'country', 'Score': '0.0%'},
{'Label': 'disco', 'Score': '99.8%'},
{'Label': 'hiphop', 'Score': '0.0%'},
{'Label': 'jazz', 'Score': '0.0%'},
{'Label': 'metal', 'Score': '0.0%'},
{'Label': 'pop', 'Score': '0.0%'},
{'Label': 'reggae', 'Score': '0.0%'},
{'Label': 'rock', 'Score': '0.0%'}
]

📚 ドキュメント

評価

以下の表は、モデルの全体的なスコアと各クラスごとのスコアをまとめたものです。

ラベル	精度	再現率	F1スコア	サポート
blues	0.792	0.950	0.864	20
classical	0.864	0.950	0.905	20
country	0.812	0.650	0.722	20
disco	0.778	0.700	0.737	20
hiphop	0.933	0.700	0.800	20
jazz	1.000	0.850	0.919	20
metal	0.783	0.900	0.837	20
pop	0.917	0.550	0.687	20
reggae	0.543	0.950	0.691	20
rock	0.611	0.550	0.579	20
正解率	0.775	0.775	0.775	0
マクロ平均	0.803	0.775	0.774	200
加重平均	0.803	0.775	0.774	200