🚀 discogs-maest-20s-pw-129e模型卡片
MAEST是基于Transformer架构的模型家族,专注于音乐分析应用。它在多个下游音乐分析任务中表现出色,可用于音乐风格分类、流派识别等。
🚀 快速开始
MAEST模型可与transformers
库的audio_classification
管道一起使用。以下是一个示例:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-20s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
✨ 主要特性
- 多任务表现出色:MAEST模型在音乐风格分类、流派识别、情感识别和乐器检测等多个下游音乐分析任务中都有良好的性能表现。
- 基于Transformer架构:以PASST为基础,利用Transformer的强大能力进行音乐特征学习。
- 可定制性强:可以根据不同的音乐分析任务进行微调,以适应特定的需求。
📚 详细文档
模型详情
MAEST是基于PASST的Transformer模型家族,专注于音乐分析应用。该模型也可在Essentia库中进行推理,并可在官方仓库中进行推理和训练。你可以在replicate上尝试MAEST的交互式演示。
⚠️ 重要提示
此模型根据CC BY - NC - SA 4.0许可用于非商业应用,如需商业使用,请联系获取专有许可。联系我们获取更多信息。
⚠️ 重要提示
MAEST模型依赖自定义代码。在🤗Transformers的audio - classification
管道中使用时,请设置trust_remote_code = True
。
用途
直接使用
MAEST模型可以对从Discogs公共元数据中衍生出的400种音乐风格分类进行预测。
下游应用
MAEST模型在与音乐流派识别、音乐情感识别和乐器检测相关的下游应用中表现良好。具体来说,原论文报告称,从模型中间层提取的特征表示能获得最佳性能。
非预期使用
该模型未在音乐理解应用之外的场景进行评估,因此我们不清楚它在预期领域之外的性能。由于该模型旨在用于audio - classification
管道,需要注意的是,MAEST 不是 通用的音频分类模型(如[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)),因此不应期望它在AudioSet等任务中表现良好。
偏差、风险和局限性
MAEST模型使用Discogs20进行训练,这是MTG内部的一个数据集,源自Discogs的公共元数据。虽然我们试图在数据集中涵盖的400种音乐风格方面实现最大程度的多样性,但我们注意到西方(特别是电子)音乐的比例过高。
训练详情
训练数据
我们的模型使用Discogs20进行训练,这是MTG内部的数据集,包含330万首与Discogs元数据匹配的音乐曲目。
训练过程
大多数训练细节在模型的论文和官方实现中有详细说明。
预处理
MAEST模型依赖最初使用Essentia库提取的梅尔频谱图,并且在之前的几篇出版物中也有使用。在Transformers中,使用audio_utils
在一定程度上复制了这种梅尔频谱图特征,这对预测有非常小(但不可忽略)的影响。
评估、指标和结果
MAEST模型在音乐风格分类任务上进行了预训练,并通过下游MLP探针在多个基准音乐理解任务中对其内部特征表示进行了评估。详情请查看原论文。
环境影响
- 硬件类型:4 x Nvidia RTX 2080 Ti
- 使用时长:约32小时
- 碳排放:约3.46千克二氧化碳当量
碳排放使用机器学习影响计算器估算,该计算器基于Lacoste等人(2019)的研究。
技术规格
模型架构和目标
[音频频谱图Transformer(AST)](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)
计算基础设施
- 硬件:4 x Nvidia RTX 2080 Ti
- 软件:Pytorch
引用
BibTeX
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
模型卡片作者
Pablo Alonso
模型卡片联系方式
📄 许可证
本模型采用CC BY - NC - SA 4.0许可证,适用于非商业应用。如需商业使用,请联系我们获取专有许可。