開源Discogs - Maest - 30s - pw - 129e模型，免費實現400種音樂風格分類分析！

首頁

Discogs Maest 30s Pw 129e

由mtg-upf開發

MAEST是基於PASST的Transformer模型系列，專注於音樂分析應用，可對400種音樂風格進行分類

音頻分類

Transformers

#音樂風格分類 #Transformer架構 #音樂表徵學習

下載量 1,002

發布時間 : 9/27/2023

模型概述

MAEST是一個通過音樂風格分類任務預訓練的音樂音頻表徵模型，在多個下游音樂分析任務中表現良好

模型特點

高效音樂表徵學習

通過音樂風格分類任務預訓練，學習高效的音樂音頻表徵

多任務適用性

中間層提取的表徵在多種下游音樂分析任務中表現優異

大規模風格覆蓋

支持來自Discogs的400種音樂風格分類

模型能力

音樂風格分類

音樂情感識別

樂器檢測

音樂音頻特徵提取

使用案例

音樂分析

音樂流派識別

自動識別音頻文件的音樂流派

在400種音樂風格分類任務中表現良好

音樂情感分析

分析音樂的情感特徵

論文報告在下游任務中表現良好

樂器檢測

識別音樂中使用的樂器

論文報告在下游任務中表現良好

🚀 discogs-maest-30s-pw-129e模型卡片

MAEST是基於Transformer架構的模型家族，專注於音樂分析應用。它在音樂風格分類等任務上預訓練，在多個下游音樂分析任務中表現出色。本模型可用於音樂風格預測，同時在音樂流派識別、情感識別和樂器檢測等方面也有良好性能。

🚀 快速開始

MAEST模型可以與transformers庫的audio_classification管道一起使用。以下是一個使用示例：

import numpy as np
from transformers import pipeline

# 音頻採樣率為16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-129e")
pipe(audio)

[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
 {'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
 {'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
 {'score': 0.03644488751888275, 'label': 'Rock---Noise'},
 {'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]

✨ 主要特性

模型詳情

MAEST是基於PASST的Transformer模型家族，專注於音樂分析應用。該模型也可在Essentia庫中進行推理，並可在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。

⚠️ 重要提示

此模型根據CC BY - NC - SA 4.0許可用於非商業應用，如需商業使用，請聯繫獲取專有許可證。聯繫我們獲取更多信息。

⚠️ 重要提示

MAEST模型依賴自定義代碼。在🤗Transformers的audio-classification管道中使用時，請設置trust_remote_code = True。

模型描述

開發者：Pablo Alonso
共享者：Pablo Alonso
模型類型：Transformer
許可證：cc - by - nc - sa - 4.0
微調基礎模型：PaSST

模型來源

倉庫：MAEST
論文：Efficient Supervised Training of Audio Transformers for Music Representation Learning

📦 安裝指南

文檔未提及安裝步驟，故跳過該章節。

💻 使用示例

基礎用法

import numpy as np
from transformers import pipeline

# 音頻採樣率為16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-129e")
pipe(audio)

高級用法

文檔未提及高級用法代碼示例，故跳過該部分。

📚 詳細文檔

用途

MAEST是一個在音樂風格分類任務上預訓練的音樂音頻表示模型。根據原論文中的評估，它在幾個下游音樂分析任務中表現良好。

直接使用

MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類法進行預測。

下游使用

MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說，原論文報告稱，從模型中間層提取的表示能獲得最佳性能。

超出適用範圍的使用

該模型未在音樂理解應用之外的場景進行評估，因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio-classification管道，需要注意的是，MAEST 不是通用的音頻分類模型（如AST），因此不應期望它在AudioSet等任務中表現良好。

偏差、風險和侷限性

MAEST模型使用Discogs20進行訓練，這是MTG內部的一個數據集，源自Discogs的公共元數據。雖然我們試圖在數據集中涵蓋的400種音樂風格方面最大化多樣性，但我們注意到西方（特別是電子）音樂的佔比過高。

評估、指標和結果

MAEST模型在音樂風格分類任務上進行了預訓練，並通過下游MLP探針在幾個基準音樂理解任務中評估了其內部表示。詳情請查看原論文。

環境影響

硬件類型：4 x Nvidia RTX 2080 Ti
使用時長：約32小時
碳排放：約3.46 kg CO2 eq.

碳排放使用Machine Learning Impact calculator估算，該計算器在Lacoste et al. (2019)中提出。

技術規格

模型架構和目標

Audio Spectrogram Transformer (AST)

計算基礎設施

本地基礎設施
- 硬件：4 x Nvidia RTX 2080 Ti
- 軟件：Pytorch

引用

BibTeX：

@inproceedings{alonso2023music,
  title={Efficient supervised training of audio transformers for music representation learning},
  author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
  booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
  year={2022},
  organization={International Society for Music Information Retrieval (ISMIR)}
}

APA：

Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)