🚀 discogs-maest-20s-pw-129e模型卡片
MAEST是基於Transformer架構的模型家族,專注於音樂分析應用。它在多個下游音樂分析任務中表現出色,可用於音樂風格分類、流派識別等。
🚀 快速開始
MAEST模型可與transformers
庫的audio_classification
管道一起使用。以下是一個示例:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-20s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
✨ 主要特性
- 多任務表現出色:MAEST模型在音樂風格分類、流派識別、情感識別和樂器檢測等多個下游音樂分析任務中都有良好的性能表現。
- 基於Transformer架構:以PASST為基礎,利用Transformer的強大能力進行音樂特徵學習。
- 可定製性強:可以根據不同的音樂分析任務進行微調,以適應特定的需求。
📚 詳細文檔
模型詳情
MAEST是基於PASST的Transformer模型家族,專注於音樂分析應用。該模型也可在Essentia庫中進行推理,並可在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。
⚠️ 重要提示
此模型根據CC BY - NC - SA 4.0許可用於非商業應用,如需商業使用,請聯繫獲取專有許可。聯繫我們獲取更多信息。
⚠️ 重要提示
MAEST模型依賴自定義代碼。在🤗Transformers的audio - classification
管道中使用時,請設置trust_remote_code = True
。
用途
直接使用
MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類進行預測。
下游應用
MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說,原論文報告稱,從模型中間層提取的特徵表示能獲得最佳性能。
非預期使用
該模型未在音樂理解應用之外的場景進行評估,因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio - classification
管道,需要注意的是,MAEST 不是 通用的音頻分類模型(如[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)),因此不應期望它在AudioSet等任務中表現良好。
偏差、風險和侷限性
MAEST模型使用Discogs20進行訓練,這是MTG內部的一個數據集,源自Discogs的公共元數據。雖然我們試圖在數據集中涵蓋的400種音樂風格方面實現最大程度的多樣性,但我們注意到西方(特別是電子)音樂的比例過高。
訓練詳情
訓練數據
我們的模型使用Discogs20進行訓練,這是MTG內部的數據集,包含330萬首與Discogs元數據匹配的音樂曲目。
訓練過程
大多數訓練細節在模型的論文和官方實現中有詳細說明。
預處理
MAEST模型依賴最初使用Essentia庫提取的梅爾頻譜圖,並且在之前的幾篇出版物中也有使用。在Transformers中,使用audio_utils
在一定程度上覆制了這種梅爾頻譜圖特徵,這對預測有非常小(但不可忽略)的影響。
評估、指標和結果
MAEST模型在音樂風格分類任務上進行了預訓練,並通過下游MLP探針在多個基準音樂理解任務中對其內部特徵表示進行了評估。詳情請查看原論文。
環境影響
- 硬件類型:4 x Nvidia RTX 2080 Ti
- 使用時長:約32小時
- 碳排放:約3.46千克二氧化碳當量
碳排放使用機器學習影響計算器估算,該計算器基於Lacoste等人(2019)的研究。
技術規格
模型架構和目標
[音頻頻譜圖Transformer(AST)](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)
計算基礎設施
- 硬件:4 x Nvidia RTX 2080 Ti
- 軟件:Pytorch
引用
BibTeX
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
模型卡片作者
Pablo Alonso
模型卡片聯繫方式
📄 許可證
本模型採用CC BY - NC - SA 4.0許可證,適用於非商業應用。如需商業使用,請聯繫我們獲取專有許可。