🚀 discogs - maest - 30s - pw - 129e のモデルカード
MAESTは、音楽分析アプリケーションに特化したTransformerモデルのファミリーです。このモデルは音楽の表現学習に役立ち、いくつかの下流の音楽分析タスクで良好な性能を発揮します。
🚀 クイックスタート
MAESTモデルは、transformers
ライブラリのaudio - classification
パイプラインで使用できます。以下は使用例です。
import numpy as np
from transformers import pipeline
audio = np.random.randn(30 * 16000)
pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-30s-pw-129e")
pipe(audio)
[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
{'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
{'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
{'score': 0.03644488751888275, 'label': 'Rock---Noise'},
{'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]
✨ 主な機能
- MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルで、下流の音楽分析タスクで良好な性能を示します。
- 400種類の音楽スタイルの分類予測が可能です。
- 音楽ジャンル認識、音楽感情認識、楽器検出などの下流アプリケーションでも良好な性能を発揮します。
📚 ドキュメント
モデル詳細
MAESTは、PASSTに基づくTransformerモデルのファミリーで、音楽分析アプリケーションに特化しています。このモデルは、Essentiaライブラリで推論可能であり、公式リポジトリで推論とトレーニングが可能です。また、replicateでインタラクティブなデモを試すことができます。
注意: このモデルは、非商用アプリケーションについてはCC BY - NC - SA 4.0ライセンスの下で利用可能で、商用利用については独自ライセンスでの提供が可能です。詳細はお問い合わせください。
注意: MAESTモデルはカスタムコードに依存しています。🤗Transformersのaudio - classification
パイプラインで使用するには、trust_remote_code = True
を設定してください。
モデルの説明
- 開発者: Pablo Alonso
- 共有者: Pablo Alonso
- モデルタイプ: Transformer
- ライセンス: cc - by - nc - sa - 4.0
- ファインチューニング元のモデル: PaSST
モデルのソース
使用方法
MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルです。元の論文で報告された評価によると、いくつかの下流の音楽分析タスクで良好な性能を示します。
直接使用
MAESTモデルは、Discogsの公開メタデータから導出された400種類の音楽スタイルの分類予測が可能です。
下流利用
MAESTモデルは、音楽ジャンル認識、音楽感情認識、楽器検出などの下流アプリケーションで良好な性能を発揮します。具体的には、元の論文では、モデルの中間層から抽出された表現が最良の性能を示すと報告されています。
範囲外の使用
このモデルは音楽理解アプリケーションのコンテキスト外では評価されていないため、意図したドメイン外での性能は不明です。また、このモデルはaudio - classification
パイプライン内での使用を想定しているため、MAESTは汎用的な音声分類モデルではありません(例:[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer))。したがって、AudioSetなどのタスクで良好な性能を期待することはできません。
バイアス、リスク、および制限
MAESTモデルは、MTGの内部データセットであるDiscogs20を使用してトレーニングされました。このデータセットはDiscogsの公開メタデータから派生しています。データセットに含まれる400種類の音楽スタイルに関して多様性を最大化しようとしましたが、西洋(特にエレクトロニック)音楽の割合が多いことに気づきました。
トレーニング詳細
トレーニングデータ
モデルはDiscogs20を使用してトレーニングされました。これはMTGの内部データセットで、Discogsのメタデータにマッチした330万曲の音楽トラックを特徴としています。
トレーニング手順
ほとんどのトレーニング詳細は、モデルの論文と公式実装に記載されています。
前処理
MAESTモデルは、もともとEssentiaライブラリで抽出されたメルスペクトログラムに依存しており、いくつかの以前の出版物で使用されています。Transformersでは、audio_utils
を使用してこのメルスペクトログラムの署名をある程度再現していますが、これは予測に非常に小さい(無視できない)影響を与えます。
評価、指標、および結果
MAESTモデルは、音楽スタイル分類のタスクで事前学習され、その内部表現はいくつかのベンチマーク音楽理解タスクで下流のMLPプローブを介して評価されました。詳細は元の論文を確認してください。
環境への影響
- ハードウェアタイプ: 4 x Nvidia RTX 2080 Ti
- 使用時間: 約32時間
- 排出された二酸化炭素量: 約3.46 kg CO2 eq.
二酸化炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定されています。
技術仕様
モデルアーキテクチャと目的
[Audio Spectrogram Transformer (AST)](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)
コンピュートインフラストラクチャ
ローカルインフラストラクチャ
ハードウェア
4 x Nvidia RTX 2080 Ti
ソフトウェア
Pytorch
引用
BibTeX
@inproceedings{alonso2023music,
title={Efficient supervised training of audio transformers for music representation learning},
author={Alonso-Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
year={2022},
organization={International Society for Music Information Retrieval (ISMIR)}
}
APA
Alonso-Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)
モデルカード作成者
Pablo Alonso
モデルカードの連絡先
📄 ライセンス
このモデルは、非商用アプリケーションについてはCC BY - NC - SA 4.0ライセンスの下で利用可能です。商用利用については独自ライセンスでの提供が可能です。詳細はお問い合わせください。