🚀 discogs-maest-30s-pw-129e模型卡片
MAEST是基於Transformer架構的模型家族,專注於音樂分析應用。它在音樂風格分類等任務上預訓練,在多個下游音樂分析任務中表現出色。本模型可用於音樂風格預測,同時在音樂流派識別、情感識別和樂器檢測等方面也有良好性能。
🚀 快速開始
MAEST模型可以與transformers
庫的audio_classification
管道一起使用。以下是一個使用示例:
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
✨ 主要特性
模型詳情
MAEST是基於PASST的Transformer模型家族,專注於音樂分析應用。該模型也可在Essentia庫中進行推理,並可在官方倉庫中進行推理和訓練。你可以在replicate上嘗試MAEST的交互式演示。
⚠️ 重要提示
此模型根據CC BY - NC - SA 4.0許可用於非商業應用,如需商業使用,請聯繫獲取專有許可證。聯繫我們獲取更多信息。
⚠️ 重要提示
MAEST模型依賴自定義代碼。在🤗Transformers的audio-classification
管道中使用時,請設置trust_remote_code = True
。
模型描述
- 開發者:Pablo Alonso
- 共享者:Pablo Alonso
- 模型類型:Transformer
- 許可證:cc - by - nc - sa - 4.0
- 微調基礎模型:PaSST
模型來源
📦 安裝指南
文檔未提及安裝步驟,故跳過該章節。
💻 使用示例
基礎用法
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-129e")
pipe(audio)
高級用法
文檔未提及高級用法代碼示例,故跳過該部分。
📚 詳細文檔
用途
MAEST是一個在音樂風格分類任務上預訓練的音樂音頻表示模型。根據原論文中的評估,它在幾個下游音樂分析任務中表現良好。
直接使用
MAEST模型可以對從Discogs公共元數據中衍生出的400種音樂風格分類法進行預測。
下游使用
MAEST模型在與音樂流派識別、音樂情感識別和樂器檢測相關的下游應用中表現良好。具體來說,原論文報告稱,從模型中間層提取的表示能獲得最佳性能。
超出適用範圍的使用
該模型未在音樂理解應用之外的場景進行評估,因此我們不清楚它在預期領域之外的性能。由於該模型旨在用於audio-classification
管道,需要注意的是,MAEST 不是 通用的音頻分類模型(如AST),因此不應期望它在AudioSet等任務中表現良好。
偏差、風險和侷限性
MAEST模型使用Discogs20進行訓練,這是MTG內部的一個數據集,源自Discogs的公共元數據。雖然我們試圖在數據集中涵蓋的400種音樂風格方面最大化多樣性,但我們注意到西方(特別是電子)音樂的佔比過高。
評估、指標和結果
MAEST模型在音樂風格分類任務上進行了預訓練,並通過下游MLP探針在幾個基準音樂理解任務中評估了其內部表示。詳情請查看原論文。
環境影響
- 硬件類型:4 x Nvidia RTX 2080 Ti
- 使用時長:約32小時
- 碳排放:約3.46 kg CO2 eq.
碳排放使用Machine Learning Impact calculator估算,該計算器在Lacoste et al. (2019)中提出。
技術規格
模型架構和目標
Audio Spectrogram Transformer (AST)
計算基礎設施
- 本地基礎設施
- 硬件:4 x Nvidia RTX 2080 Ti
- 軟件:Pytorch
引用
BibTeX:
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA:
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
模型卡片作者
Pablo Alonso
模型卡片聯繫方式
📄 許可證
此模型根據CC BY - NC - SA 4.0許可用於非商業應用,如需商業使用,請聯繫獲取專有許可證。聯繫我們獲取更多信息。