discogs-maest-20s-pw-129e開源音樂分析模型 - 免費實現精準音樂風格分類

首頁

Discogs Maest 20s Pw 129e

由mtg-upf開發

MAEST是基於PASST的Transformer模型系列，專注於音樂分析應用，特別是音樂風格分類任務。

音頻分類

Transformers

#音樂風格分類 #Transformer音頻分析 #Discogs元數據

下載量 28

發布時間 : 9/27/2023

模型概述

MAEST是一個基於Transformer的音樂音頻表徵模型，主要用於音樂風格分類任務，並在多項下游音樂分析任務中表現良好。

模型特點

高效的音樂表徵學習

通過音樂風格分類任務預訓練，學習高效的音樂音頻表徵。

多任務下游應用

在音樂流派識別、音樂情感識別和樂器檢測等下游應用中表現優異。

中間層表徵提取

從模型中間層提取的表徵能獲得最佳性能。

模型能力

音樂風格分類

音樂流派識別

音樂情感識別

樂器檢測

使用案例

音樂分析

音樂風格分類

對Discogs公開元數據衍生的400種音樂風格進行分類預測。

在多項下游音樂分析任務中表現良好。

音樂情感識別

識別音樂的情感特徵。

原論文報告表現優異。

🚀 discogs-maest-20s-pw-129e模型卡片

MAEST是基於Transformer架構的模型家族，專注於音樂分析應用。它在多個下游音樂分析任務中表現出色，可用於音樂風格分類、流派識別等。

🚀 快速開始

MAEST模型可與transformers庫的audio_classification管道一起使用。以下是一個示例：

import numpy as np
from transformers import pipeline

# 音頻採樣率為16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-20s-pw-129e")
pipe(audio)

[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
 {'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
 {'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
 {'score': 0.03644488751888275, 'label': 'Rock---Noise'},
 {'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]

✨ 主要特性

多任務表現出色：MAEST模型在音樂風格分類、流派識別、情感識別和樂器檢測等多個下游音樂分析任務中都有良好的性能表現。
基於Transformer架構：以PASST為基礎，利用Transformer的強大能力進行音樂特徵學習。
可定製性強：可以根據不同的音樂分析任務進行微調，以適應特定的需求。

📚 詳細文檔

模型詳情

MAEST是基於PASST的Transformer模型家族，專注於音樂分析應用。該模型也可在Essentia庫中進行推理，並可在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。

⚠️ 重要提示

此模型根據CC BY - NC - SA 4.0許可用於非商業應用，如需商業使用，請聯繫獲取專有許可。聯繫我們獲取更多信息。

⚠️ 重要提示

MAEST模型依賴自定義代碼。在🤗Transformers的audio - classification管道中使用時，請設置trust_remote_code = True。

屬性	詳情
開發者	Pablo Alonso
共享者	Pablo Alonso
模型類型	Transformer
許可證	cc - by - nc - sa - 4.0
微調基礎模型	PaSST
倉庫	MAEST
論文	Efficient Supervised Training of Audio Transformers for Music Representation Learning

用途

直接使用

MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類進行預測。

下游應用

MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說，原論文報告稱，從模型中間層提取的特徵表示能獲得最佳性能。

非預期使用

該模型未在音樂理解應用之外的場景進行評估，因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio - classification管道，需要注意的是，MAEST 不是通用的音頻分類模型（如[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)），因此不應期望它在AudioSet等任務中表現良好。

偏差、風險和侷限性

MAEST模型使用Discogs20進行訓練，這是MTG內部的一個數據集，源自Discogs的公共元數據。雖然我們試圖在數據集中涵蓋的400種音樂風格方面實現最大程度的多樣性，但我們注意到西方（特別是電子）音樂的比例過高。

訓練詳情

訓練數據

我們的模型使用Discogs20進行訓練，這是MTG內部的數據集，包含330萬首與Discogs元數據匹配的音樂曲目。

訓練過程

大多數訓練細節在模型的論文和官方實現中有詳細說明。

預處理

MAEST模型依賴最初使用Essentia庫提取的梅爾頻譜圖，並且在之前的幾篇出版物中也有使用。在Transformers中，使用audio_utils在一定程度上覆制了這種梅爾頻譜圖特徵，這對預測有非常小（但不可忽略）的影響。

評估、指標和結果

MAEST模型在音樂風格分類任務上進行了預訓練，並通過下游MLP探針在多個基準音樂理解任務中對其內部特徵表示進行了評估。詳情請查看原論文。

環境影響

硬件類型：4 x Nvidia RTX 2080 Ti
使用時長：約32小時
碳排放：約3.46千克二氧化碳當量

碳排放使用機器學習影響計算器估算，該計算器基於Lacoste等人（2019）的研究。

技術規格

模型架構和目標

[音頻頻譜圖Transformer（AST）](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)

計算基礎設施

硬件：4 x Nvidia RTX 2080 Ti
軟件：Pytorch

引用

BibTeX

@inproceedings{alonso2023music,
  title={Efficient supervised training of audio transformers for music representation learning},
  author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
  booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
  year={2022},
  organization={International Society for Music Information Retrieval (ISMIR)}
}

APA

Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)