🚀 discogs-maest-10s-pw-129e模型卡片
MAEST是基於Transformer架構的音頻模型,專注於音樂分析應用。它能對音樂風格進行分類,在多個下游音樂分析任務中表現出色。可通過transformers
庫的audio_classification
管道使用該模型。
🚀 快速開始
MAEST模型可以與transformers
庫的audio_classification
管道一起使用。以下是一個使用示例:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-10s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
⚠️ 重要提示
此模型根據CC BY - NC - SA 4.0許可用於非商業應用,如需商業使用,請聯繫獲取專有許可。點擊此處聯繫我們獲取更多信息。
⚠️ 重要提示
MAEST模型依賴自定義代碼。在🤗Transformers的audio-classification
管道中使用它們時,請設置trust_remote_code = True
。
✨ 主要特性
模型詳情
MAEST是基於PASST的Transformer模型家族,專注於音樂分析應用。MAEST模型還可以在Essentia庫中進行推理,也可以在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。
模型描述
- 開發者:Pablo Alonso
- 共享者:Pablo Alonso
- 模型類型:Transformer
- 許可證:cc - by - nc - sa - 4.0
- 微調基礎模型:PaSST
模型來源
📚 詳細文檔
用途
MAEST是一個在音樂風格分類任務上預訓練的音樂音頻表徵模型。根據原論文中的評估,它在幾個下游音樂分析任務中表現良好。
直接使用
MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類法進行預測。
下游使用
MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說,原論文報告稱,從模型中間層提取的表徵可以獲得最佳性能。
非預期使用
該模型未在音樂理解應用之外的場景進行評估,因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio-classification
管道,需要注意的是,MAEST 不是 通用的音頻分類模型(如AST),因此不應期望它在AudioSet等任務中表現良好。
偏差、風險和侷限性
MAEST模型使用Discogs20進行訓練,這是MTG內部的一個從Discogs公共元數據派生的數據集。雖然我們試圖在數據集中涵蓋的400種音樂風格方面實現最大的多樣性,但我們注意到西方(特別是電子)音樂的佔比過高。
訓練詳情
訓練數據
我們的模型使用Discogs20進行訓練,這是MTG內部的一個數據集,包含330萬首與Discogs元數據匹配的音樂曲目。
訓練過程
大多數訓練細節在模型的論文和官方實現中有詳細說明。
預處理
MAEST模型依賴最初使用Essentia庫提取的梅爾頻譜圖,並且在之前的幾篇出版物中使用過。在Transformers中,使用audio_utils
在一定程度上覆制了這種梅爾頻譜圖簽名,這對預測有非常小(但不可忽略)的影響。
評估、指標和結果
MAEST模型在音樂風格分類任務上進行了預訓練,並通過下游MLP探針在幾個基準音樂理解任務中評估了其內部表徵。詳情請查看原論文。
環境影響
- 硬件類型:4 x Nvidia RTX 2080 Ti
- 使用時長:約32小時
- 碳排放:約3.46千克二氧化碳當量
碳排放使用Lacoste等人(2019)中介紹的機器學習影響計算器進行估算。
技術規格
模型架構和目標
音頻頻譜圖Transformer (AST)
計算基礎設施
硬件
4 x Nvidia RTX 2080 Ti
軟件
Pytorch
引用
BibTeX:
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA:
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
模型卡片作者
Pablo Alonso
模型卡片聯繫方式
信息表格