开源discogs-maest-10s-pw-129e模型 - 免费部署精准进行音乐风格分类

首页

Discogs Maest 10s Pw 129e

由 mtg-upf 开发

MAEST是基于PASST的Transformer模型家族，专注于音乐分析应用，特别擅长音乐风格分类任务。

音频分类

Transformers

#音乐风格分类 #Transformer架构 #梅尔频谱图

下载量 33

发布时间 : 9/27/2023

模型简介

MAEST是一个在音乐风格分类任务上预训练的音乐音频表示模型，能够对400种音乐风格进行分类预测。

模型特点

高效音乐表示学习

基于监督训练方法，高效学习音乐音频表示

广泛音乐风格覆盖

支持400种源自Discogs的音乐风格分类

下游任务适应性

中间层表示在多种音乐分析任务中表现优异

模型能力

音乐风格分类

音乐情感识别

乐器检测

音乐音频特征提取

使用案例

音乐信息检索

音乐流派自动标注

为音乐库自动添加风格标签

支持400种风格分类

音乐推荐系统

基于风格的相似音乐推荐

利用音乐风格特征寻找相似曲目

🚀 discogs-maest-10s-pw-129e模型卡片

MAEST是基于Transformer架构的音频模型，专注于音乐分析应用。它能对音乐风格进行分类，在多个下游音乐分析任务中表现出色。可通过transformers库的audio_classification管道使用该模型。

🚀 快速开始

MAEST模型可以与transformers库的audio_classification管道一起使用。以下是一个使用示例：

import numpy as np
from transformers import pipeline

# 音频采样率为16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-10s-pw-129e")
pipe(audio)

[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
 {'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
 {'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
 {'score': 0.03644488751888275, 'label': 'Rock---Noise'},
 {'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]

⚠️ 重要提示

此模型根据CC BY - NC - SA 4.0许可用于非商业应用，如需商业使用，请联系获取专有许可。点击此处联系我们获取更多信息。

⚠️ 重要提示

MAEST模型依赖自定义代码。在🤗Transformers的audio-classification管道中使用它们时，请设置trust_remote_code = True。

✨ 主要特性

模型详情

MAEST是基于PASST的Transformer模型家族，专注于音乐分析应用。MAEST模型还可以在Essentia库中进行推理，也可以在官方仓库中进行推理和训练。你可以在replicate上尝试MAEST的交互式演示。

模型描述

开发者：Pablo Alonso
共享者：Pablo Alonso
模型类型：Transformer
许可证：cc - by - nc - sa - 4.0
微调基础模型：PaSST

模型来源

仓库：MAEST
论文：Efficient Supervised Training of Audio Transformers for Music Representation Learning

📚 详细文档

用途

MAEST是一个在音乐风格分类任务上预训练的音乐音频表征模型。根据原论文中的评估，它在几个下游音乐分析任务中表现良好。

直接使用

MAEST模型可以对从Discogs公共元数据中衍生出的400种音乐风格分类法进行预测。

下游使用

MAEST模型在与音乐流派识别、音乐情感识别和乐器检测相关的下游应用中表现良好。具体来说，原论文报告称，从模型中间层提取的表征可以获得最佳性能。

非预期使用

该模型未在音乐理解应用之外的场景进行评估，因此我们不清楚它在预期领域之外的性能。由于该模型旨在用于audio-classification管道，需要注意的是，MAEST 不是通用的音频分类模型（如AST），因此不应期望它在AudioSet等任务中表现良好。

偏差、风险和局限性

MAEST模型使用Discogs20进行训练，这是MTG内部的一个从Discogs公共元数据派生的数据集。虽然我们试图在数据集中涵盖的400种音乐风格方面实现最大的多样性，但我们注意到西方（特别是电子）音乐的占比过高。

训练详情

训练数据

我们的模型使用Discogs20进行训练，这是MTG内部的一个数据集，包含330万首与Discogs元数据匹配的音乐曲目。

训练过程

大多数训练细节在模型的论文和官方实现中有详细说明。

预处理

MAEST模型依赖最初使用Essentia库提取的梅尔频谱图，并且在之前的几篇出版物中使用过。在Transformers中，使用audio_utils在一定程度上复制了这种梅尔频谱图签名，这对预测有非常小（但不可忽略）的影响。

评估、指标和结果

MAEST模型在音乐风格分类任务上进行了预训练，并通过下游MLP探针在几个基准音乐理解任务中评估了其内部表征。详情请查看原论文。

环境影响

硬件类型：4 x Nvidia RTX 2080 Ti
使用时长：约32小时
碳排放：约3.46千克二氧化碳当量

碳排放使用Lacoste等人（2019）中介绍的机器学习影响计算器进行估算。

技术规格

模型架构和目标

音频频谱图Transformer (AST)

计算基础设施

硬件

4 x Nvidia RTX 2080 Ti

软件

Pytorch

引用

BibTeX：

@inproceedings{alonso2023music,
  title={Efficient supervised training of audio transformers for music representation learning},
  author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
  booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
  year={2022},
  organization={International Society for Music Information Retrieval (ISMIR)}
}

APA：

Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)

模型卡片作者

Pablo Alonso

模型卡片联系方式

Twitter：@pablo__alonso
Github：@palonso
邮箱：pablo dot alonso at upf dot edu

信息表格

属性	详情
模型类型	Transformer
训练数据	Discogs20，MTG内部数据集，包含330万首与Discogs元数据匹配的音乐曲目
许可证	cc - by - nc - sa - 4.0
微调基础模型	PaSST
仓库	MAEST
论文	Efficient Supervised Training of Audio Transformers for Music Representation Learning