🚀 discogs - maest - 10s - pw - 129e
MAESTは、音楽分析アプリケーションに特化したTransformerモデルのファミリーです。Discogsのメタデータを用いて学習され、音楽スタイル分類などのタスクで良好な性能を発揮します。
🚀 クイックスタート
MAESTモデルは、transformers
ライブラリのaudio - classification
パイプラインで使用できます。以下は使用例です。
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-10s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
✨ 主な機能
- MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルです。
- 400種類の音楽スタイルの分類に対して予測を行うことができます。
- 音楽ジャンル認識、音楽感情認識、楽器検出などの下流タスクで良好な性能を発揮します。
📚 ドキュメント
モデルの詳細
MAESTは、PASSTに基づくTransformerモデルのファミリーで、音楽分析アプリケーションに特化しています。MAESTモデルは、Essentiaライブラリでの推論や、公式リポジトリでの推論とトレーニングも可能です。また、replicateでMAESTのインタラクティブデモを試すことができます。
⚠️ 重要提示
このモデルは、非商用アプリケーションに対しては[CC BY - NC - SA 4.0](https://creativecommons.org/licenses/by - nc - sa/4.0/)ライセンスの下で利用可能で、商用利用については独自ライセンスでの提供が可能です。詳細はこちらから問い合わせください。
⚠️ 重要提示
MAESTモデルは[カスタムコード](https://huggingface.co/docs/transformers/custom_models#using - a - model - with - custom - code)に依存しています。🤗Transformersのaudio - classification
パイプラインで使用するには、trust_remote_code = True
を設定してください。
モデルの説明
- 開発者: Pablo Alonso
- 共有者: Pablo Alonso
- モデルタイプ: Transformer
- ライセンス: cc - by - nc - sa - 4.0
- ファインチューニング元のモデル: PaSST
モデルのソース
モデルの用途
MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルです。原著論文で報告されている評価によると、いくつかの下流の音楽分析タスクで良好な性能を示しています。
直接利用
MAESTモデルは、Discogsの公開メタデータから導き出された400種類の音楽スタイルの分類に対して予測を行うことができます。
下流利用
MAESTモデルは、音楽ジャンル認識、音楽感情認識、楽器検出などの下流アプリケーションで良好な性能を発揮します。具体的には、原著論文では、モデルの中間層から抽出された表現が最良の性能を示すと報告されています。
想定外の利用
このモデルは、音楽理解アプリケーションのコンテキスト外では評価されていないため、想定外のドメインでの性能は不明です。また、このモデルはaudio - classification
パイプライン内での使用を想定しているため、MAESTは汎用的な音声分類モデルではありません(例:[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer))。したがって、AudioSetなどのタスクで良好な性能を期待することはできません。
バイアス、リスク、制限事項
MAESTモデルは、MTGの社内データセットであるDiscogs20を使用してトレーニングされています。このデータセットは、Discogsの公開メタデータから派生しています。データセットに含まれる400種類の音楽スタイルに関して多様性を最大化しようとしましたが、西洋(特にエレクトロニック)音楽の割合が多いことに気づきました。
トレーニングの詳細
トレーニングデータ
モデルは、Discogsのメタデータとマッチした330万の音楽トラックを特徴とするMTG社内データセットであるDiscogs20を使用してトレーニングされました。
トレーニング手順
ほとんどのトレーニングの詳細は、モデルの論文と公式実装に記載されています。
前処理
MAESTモデルは、もともとEssentiaライブラリで抽出されたメルスペクトログラムに依存しており、いくつかの以前の出版物で使用されています。Transformersでは、audio_utils
を使用してこのメルスペクトログラムのシグネチャがある程度再現されますが、これは予測に非常に小さい(ただし無視できない)影響を与えます。
評価、指標、結果
MAESTモデルは、音楽スタイル分類のタスクで事前学習され、その内部表現はいくつかのベンチマーク音楽理解タスクで下流のMLPプローブを介して評価されました。詳細は元の論文を参照してください。
環境への影響
- ハードウェアタイプ: 4 x Nvidia RTX 2080 Ti
- 使用時間: 約32時間
- 排出された二酸化炭素量: 約3.46 kg CO2 eq.
二酸化炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定されています。
技術仕様
モデルアーキテクチャと目的
[Audio Spectrogram Transformer (AST)](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)
コンピューティングインフラストラクチャ
ローカルインフラストラクチャ
ハードウェア
4 x Nvidia RTX 2080 Ti
ソフトウェア
Pytorch
引用
BibTeX:
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso - Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA:
Alonso - Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
モデルカードの作成者
Pablo Alonso
モデルカードの連絡先
📄 ライセンス
このモデルは、[CC BY - NC - SA 4.0](https://creativecommons.org/licenses/by - nc - sa/4.0/)ライセンスの下で提供されています。