開源discogs-maest-10s-pw-129e模型 - 免費部署精準進行音樂風格分類

首頁

Discogs Maest 10s Pw 129e

由mtg-upf開發

MAEST是基於PASST的Transformer模型家族，專注於音樂分析應用，特別擅長音樂風格分類任務。

音頻分類

Transformers

#音樂風格分類 #Transformer架構 #梅爾頻譜圖

下載量 33

發布時間 : 9/27/2023

模型概述

MAEST是一個在音樂風格分類任務上預訓練的音樂音頻表示模型，能夠對400種音樂風格進行分類預測。

模型特點

高效音樂表示學習

基於監督訓練方法，高效學習音樂音頻表示

廣泛音樂風格覆蓋

支持400種源自Discogs的音樂風格分類

下游任務適應性

中間層表示在多種音樂分析任務中表現優異

模型能力

音樂風格分類

音樂情感識別

樂器檢測

音樂音頻特徵提取

使用案例

音樂信息檢索

音樂流派自動標註

為音樂庫自動添加風格標籤

支持400種風格分類

音樂推薦系統

基於風格的相似音樂推薦

利用音樂風格特徵尋找相似曲目

🚀 discogs-maest-10s-pw-129e模型卡片

MAEST是基於Transformer架構的音頻模型，專注於音樂分析應用。它能對音樂風格進行分類，在多個下游音樂分析任務中表現出色。可通過transformers庫的audio_classification管道使用該模型。

🚀 快速開始

MAEST模型可以與transformers庫的audio_classification管道一起使用。以下是一個使用示例：

import numpy as np
from transformers import pipeline

# 音頻採樣率為16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-10s-pw-129e")
pipe(audio)

[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
 {'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
 {'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
 {'score': 0.03644488751888275, 'label': 'Rock---Noise'},
 {'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]

⚠️ 重要提示

此模型根據CC BY - NC - SA 4.0許可用於非商業應用，如需商業使用，請聯繫獲取專有許可。點擊此處聯繫我們獲取更多信息。

⚠️ 重要提示

MAEST模型依賴自定義代碼。在🤗Transformers的audio-classification管道中使用它們時，請設置trust_remote_code = True。

✨ 主要特性

模型詳情

MAEST是基於PASST的Transformer模型家族，專注於音樂分析應用。MAEST模型還可以在Essentia庫中進行推理，也可以在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。

模型描述

開發者：Pablo Alonso
共享者：Pablo Alonso
模型類型：Transformer
許可證：cc - by - nc - sa - 4.0
微調基礎模型：PaSST

模型來源

倉庫：MAEST
論文：Efficient Supervised Training of Audio Transformers for Music Representation Learning

📚 詳細文檔

用途

MAEST是一個在音樂風格分類任務上預訓練的音樂音頻表徵模型。根據原論文中的評估，它在幾個下游音樂分析任務中表現良好。

直接使用

MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類法進行預測。

下游使用

MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說，原論文報告稱，從模型中間層提取的表徵可以獲得最佳性能。

非預期使用

該模型未在音樂理解應用之外的場景進行評估，因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio-classification管道，需要注意的是，MAEST 不是通用的音頻分類模型（如AST），因此不應期望它在AudioSet等任務中表現良好。

偏差、風險和侷限性

MAEST模型使用Discogs20進行訓練，這是MTG內部的一個從Discogs公共元數據派生的數據集。雖然我們試圖在數據集中涵蓋的400種音樂風格方面實現最大的多樣性，但我們注意到西方（特別是電子）音樂的佔比過高。

訓練詳情

訓練數據

我們的模型使用Discogs20進行訓練，這是MTG內部的一個數據集，包含330萬首與Discogs元數據匹配的音樂曲目。

訓練過程

大多數訓練細節在模型的論文和官方實現中有詳細說明。

預處理

MAEST模型依賴最初使用Essentia庫提取的梅爾頻譜圖，並且在之前的幾篇出版物中使用過。在Transformers中，使用audio_utils在一定程度上覆制了這種梅爾頻譜圖簽名，這對預測有非常小（但不可忽略）的影響。

評估、指標和結果

MAEST模型在音樂風格分類任務上進行了預訓練，並通過下游MLP探針在幾個基準音樂理解任務中評估了其內部表徵。詳情請查看原論文。

環境影響

硬件類型：4 x Nvidia RTX 2080 Ti
使用時長：約32小時
碳排放：約3.46千克二氧化碳當量

碳排放使用Lacoste等人（2019）中介紹的機器學習影響計算器進行估算。

技術規格

模型架構和目標

音頻頻譜圖Transformer (AST)

計算基礎設施

硬件

4 x Nvidia RTX 2080 Ti

軟件

Pytorch

引用

BibTeX：

@inproceedings{alonso2023music,
  title={Efficient supervised training of audio transformers for music representation learning},
  author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
  booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
  year={2022},
  organization={International Society for Music Information Retrieval (ISMIR)}
}

APA：

Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)

模型卡片作者

Pablo Alonso

模型卡片聯繫方式

Twitter：@pablo__alonso
Github：@palonso
郵箱：pablo dot alonso at upf dot edu

信息表格

屬性	詳情
模型類型	Transformer
訓練數據	Discogs20，MTG內部數據集，包含330萬首與Discogs元數據匹配的音樂曲目
許可證	cc - by - nc - sa - 4.0
微調基礎模型	PaSST
倉庫	MAEST
論文	Efficient Supervised Training of Audio Transformers for Music Representation Learning