オープンソースのdiscogs - maest - 10s - pw - 129eモデル - 無料でデプロイして高精度に音楽スタイルを分類する

ホーム

Discogs Maest 10s Pw 129e

mtg-upfによって開発

MAESTはPASSTを基にしたTransformerモデルファミリーで、音楽分析アプリケーションに特化しており、特に音楽スタイル分類タスクに優れています。

音声分類

Transformers

#音楽スタイル分類 #Transformerアーキテクチャ #メルスペクトログラム

ダウンロード数 33

リリース時間 : 9/27/2023

モデル概要

MAESTは音楽スタイル分類タスクで事前学習された音楽オーディオ表現モデルで、400種類の音楽スタイルを分類予測できます。

モデル特徴

効率的な音楽表現学習

教師あり学習方法に基づき、音楽オーディオ表現を効率的に学習

幅広い音楽スタイルカバレッジ

Discogs由来の400種類の音楽スタイル分類をサポート

下流タスク適応性

中間層表現は様々な音楽分析タスクで優れた性能を発揮

モデル能力

音楽スタイル分類

音楽感情認識

楽器検出

音楽オーディオ特徴抽出

使用事例

音楽情報検索

音楽ジャンル自動タグ付け

音楽ライブラリに自動的にスタイルタグを追加

400種類のスタイル分類をサポート

音楽推薦システム

スタイルベースの類似音楽推薦

音楽スタイル特徴を利用して類似トラックを検索

🚀 discogs - maest - 10s - pw - 129e

MAESTは、音楽分析アプリケーションに特化したTransformerモデルのファミリーです。Discogsのメタデータを用いて学習され、音楽スタイル分類などのタスクで良好な性能を発揮します。

🚀 クイックスタート

MAESTモデルは、transformersライブラリのaudio - classificationパイプラインで使用できます。以下は使用例です。

import numpy as np
from transformers import pipeline

# audio @16kHz
audio = np.random.randn(30 * 16000)

pipe = pipeline("audio-classification", model="mtg-upf/discogs-maest-10s-pw-129e")
pipe(audio)

[{'score': 0.6158794164657593, 'label': 'Electronic---Noise'},
 {'score': 0.08825448155403137, 'label': 'Electronic---Experimental'},
 {'score': 0.08772594481706619, 'label': 'Electronic---Abstract'},
 {'score': 0.03644488751888275, 'label': 'Rock---Noise'},
 {'score': 0.03272806480526924, 'label': 'Electronic---Musique Concrète'}]

✨ 主な機能

MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルです。
400種類の音楽スタイルの分類に対して予測を行うことができます。
音楽ジャンル認識、音楽感情認識、楽器検出などの下流タスクで良好な性能を発揮します。

📚 ドキュメント

モデルの詳細

MAESTは、PASSTに基づくTransformerモデルのファミリーで、音楽分析アプリケーションに特化しています。MAESTモデルは、Essentiaライブラリでの推論や、公式リポジトリでの推論とトレーニングも可能です。また、replicateでMAESTのインタラクティブデモを試すことができます。

⚠️ 重要提示

このモデルは、非商用アプリケーションに対しては[CC BY - NC - SA 4.0](https://creativecommons.org/licenses/by - nc - sa/4.0/)ライセンスの下で利用可能で、商用利用については独自ライセンスでの提供が可能です。詳細はこちらから問い合わせください。

⚠️ 重要提示

MAESTモデルは[カスタムコード](https://huggingface.co/docs/transformers/custom_models#using - a - model - with - custom - code)に依存しています。🤗Transformersのaudio - classificationパイプラインで使用するには、trust_remote_code = Trueを設定してください。

モデルの説明

開発者: Pablo Alonso
共有者: Pablo Alonso
モデルタイプ: Transformer
ライセンス: cc - by - nc - sa - 4.0
ファインチューニング元のモデル: PaSST

モデルのソース

リポジトリ: MAEST
論文: Efficient Supervised Training of Audio Transformers for Music Representation Learning

モデルの用途

MAESTは、音楽スタイル分類のタスクで事前学習された音楽音声表現モデルです。原著論文で報告されている評価によると、いくつかの下流の音楽分析タスクで良好な性能を示しています。

直接利用

MAESTモデルは、Discogsの公開メタデータから導き出された400種類の音楽スタイルの分類に対して予測を行うことができます。

下流利用

MAESTモデルは、音楽ジャンル認識、音楽感情認識、楽器検出などの下流アプリケーションで良好な性能を発揮します。具体的には、原著論文では、モデルの中間層から抽出された表現が最良の性能を示すと報告されています。

想定外の利用

このモデルは、音楽理解アプリケーションのコンテキスト外では評価されていないため、想定外のドメインでの性能は不明です。また、このモデルはaudio - classificationパイプライン内での使用を想定しているため、MAESTは汎用的な音声分類モデルではありません（例：[AST](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)）。したがって、AudioSetなどのタスクで良好な性能を期待することはできません。

バイアス、リスク、制限事項

MAESTモデルは、MTGの社内データセットであるDiscogs20を使用してトレーニングされています。このデータセットは、Discogsの公開メタデータから派生しています。データセットに含まれる400種類の音楽スタイルに関して多様性を最大化しようとしましたが、西洋（特にエレクトロニック）音楽の割合が多いことに気づきました。

トレーニングの詳細

トレーニングデータ

モデルは、Discogsのメタデータとマッチした330万の音楽トラックを特徴とするMTG社内データセットであるDiscogs20を使用してトレーニングされました。

トレーニング手順

ほとんどのトレーニングの詳細は、モデルの論文と公式実装に記載されています。

前処理

MAESTモデルは、もともとEssentiaライブラリで抽出されたメルスペクトログラムに依存しており、いくつかの以前の出版物で使用されています。Transformersでは、audio_utilsを使用してこのメルスペクトログラムのシグネチャがある程度再現されますが、これは予測に非常に小さい（ただし無視できない）影響を与えます。

評価、指標、結果

MAESTモデルは、音楽スタイル分類のタスクで事前学習され、その内部表現はいくつかのベンチマーク音楽理解タスクで下流のMLPプローブを介して評価されました。詳細は元の論文を参照してください。

環境への影響

ハードウェアタイプ: 4 x Nvidia RTX 2080 Ti
使用時間: 約32時間
排出された二酸化炭素量: 約3.46 kg CO2 eq.

二酸化炭素排出量は、Lacoste et al. (2019)で提示されたMachine Learning Impact calculatorを使用して推定されています。

技術仕様

モデルアーキテクチャと目的

[Audio Spectrogram Transformer (AST)](https://huggingface.co/docs/transformers/model_doc/audio - spectrogram - transformer)

コンピューティングインフラストラクチャ

ローカルインフラストラクチャ

ハードウェア

4 x Nvidia RTX 2080 Ti

ソフトウェア

Pytorch

引用

BibTeX:

@inproceedings{alonso2023music,
  title={Efficient supervised training of audio transformers for music representation learning},
  author={Alonso - Jim{\'e}nez, Pablo and Serra, Xavier and Bogdanov, Dmitry},
  booktitle={Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)},
  year={2022},
  organization={International Society for Music Information Retrieval (ISMIR)}
}

APA:

Alonso - Jiménez, P., Serra, X., & Bogdanov, D. (2023). Efficient Supervised Training of Audio Transformers for Music Representation Learning. In Proceedings of the 24th International Society for Music Information Retrieval Conference (ISMIR 2023)