OpenJMLAオープンソース零サンプル音楽タグシステム - オープンセット音楽タグの難題を解決する

ホーム

Openjmla

UniMusによって開発

OpenJMLAはゼロショット音楽タグシステムであり、音楽と言語のアテンションモデルを統合することで、オープンセット音楽タグ問題を解決します。

テキスト生成オーディオ

Transformers

英語オープンソースライセンス:CC #ゼロショット音楽タグ #マルチモーダルアテンション #オープンセット識別

ダウンロード数 116

リリース時間 : 12/5/2023

モデル概要

OpenJMLAはオープンセット音楽タグ問題を解決することを目的としており、音楽と言語のアテンション（JMLA）モデルを統合することでゼロショット音楽タグシステムを実現し、関連するデータセットで優れた成績を収めています。

モデル特徴

オープンセット音楽タグ

従来のクローズドセット音楽タグが新しいタグに拡張できない問題を解決しました。

革新的なモデルアーキテクチャ

オーディオエンコーダと言語デコーダを組み合わせ、事前知覚リサンプラーと密集したアテンション接続を導入します。

大規模データセット

インターネットから収集した音楽と説明データを使用し、ChatGPTを通じて形式化と多様化処理を行います。

優れた性能

GTZANデータセットで64.82%のゼロショットオーディオタグ精度を実現しました。

モデル能力

音楽タグ生成

音楽説明生成

ゼロショット学習

使用事例

音楽分類

ジャンル識別

音楽のジャンルを識別します。例えば、ポップ、ロックなど。

GTZANデータセットでの精度は64.82%

感情分析

音楽の感情を分析します。例えば、憂鬱、楽しいなど。

音楽推薦

シーンマッチング

音楽タグに基づいて、バー、スポーツなどの適切なシーンを推薦します。

🚀 UniMusプロジェクト: OpenJMLA

UniMusプロジェクトのOpenJMLAは、音楽のタグ付けを行うゼロショットシステムです。従来の音楽タグ付け研究がクローズドセットのタスクに焦点を当てていたのに対し、本システムはオープンセットの音楽タグ付け問題を解決することを目指しています。

JMLAの再実装

音楽タグ付けは、音楽レコーディングのタグを予測するタスクです。しかし、従来の音楽タグ付け研究は主にクローズドセットの音楽タグ付けタスクに焦点を当てており、新しいタグに一般化することができません。本研究では、オープンセットの音楽タグ付け問題を解決するために、音楽と言語の結合注意（JMLA）モデルによってモデル化されたゼロショット音楽タグ付けシステムを提案します。JMLAモデルは、事前学習されたマスク付きオートエンコーダによってモデル化されたオーディオエンコーダと、Falcon7Bによってモデル化されたデコーダで構成されています。任意の長さのオーディオを固定長の埋め込みに変換するために、プリシーバーリサンプラーを導入します。エンコーダとデコーダの層間の情報の流れを改善するために、エンコーダとデコーダの層間に密な注意接続を導入します。インターネットから大規模な音楽と説明のデータセットを収集します。JMLAモデルを訓練するために、ChatGPTを使用して生の説明を形式化された多様な説明に変換することを提案します。提案するJMLAシステムは、GTZANデータセットで64.82%のゼロショットオーディオタグ付け精度を達成し、以前のゼロショットシステムを上回り、FMAおよびMagnaTagATuneデータセットで以前のシステムと同等の結果を達成します。

📦 インストール

conda create -name SpectPrompt python=3.9
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets librosa einops_exts einops mmcls peft ipdb torchlibrosa
pip install -U openmim
mim install mmcv==1.7.1

🚀 クイックスタート

以下に、🤗 Transformersを使用してOpenJMLAを使う簡単な例を示します。

🤗 Transformers

OpenJMLAを推論に使用するには、以下に示すように数行のコードを入力するだけです。

from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

model = AutoModel.from_pretrained('UniMus/OpenJMLA', trust_remote_code=True)
device = model.device
# sample rate: 16k
music_path = '/path/to/music.wav'
# 1. get logmelspectrogram
# get the file wav_to_mel.py from https://github.com/taugastcn/SpectPrompt.git
from wav_to_mel import wav_to_mel
lms = wav_to_mel(music_path)

import os
from torch.nn.utils.rnn import pad_sequence
import random
# get the file transforms.py from https://github.com/taugastcn/SpectPrompt.git
from transforms import Normalize, SpecRandomCrop, SpecPadding, SpecRepeat
transforms = [ Normalize(-4.5, 4.5), SpecRandomCrop(target_len=2992), SpecPadding(target_len=2992), SpecRepeat() ]
lms = lms.numpy()
for trans in transforms:
    lms = trans(lms)

# 2. template of input
input_dic = dict()
input_dic['filenames'] = [music_path.split('/')[-1]]
input_dic['ans_crds'] = [0]
input_dic['audio_crds'] = [0]
input_dic['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
input_dic['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
input_dic['spectrogram'] = torch.from_numpy(lms).unsqueez(dim=0).to(device)
# 3. generation
model.eval()
gen_ids = model.forward_test(input)
gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))
# 4. Post-processing
# Given that the training data may contain biases, the generated texts might need some straightforward post-processing to ensure accuracy.
# In future versions, we will enhance the quality of the data.
gen_text = gen_text.split('<s>')[-1].split('\n')[0].strip()
gen_text = gen_text.replace(' in Chinese','')
gen_text = gen_text.replace(' Chinese','')
print(gen_text)

💻 使用例

音楽:

https://www.youtube.com/watch?v=Q_yuO8UNGmY

キャプション:

楽器: ボーカル、ピアノ、弦楽器ジャンル: ポップテーマ: 失恋ムード: 憂鬱時代: 現代テンポ: 速い最適なシーン: 小さく薄暗いバー。この曲の憂鬱なムードは、ステージをイメージしたメロディーに相まっています。

📄 引用

もしあなたの研究で当社の論文やコードが役に立った場合は、スターを付けて引用を考慮してください。

@article{JMLA,
  title={JOINT MUSIC AND LANGUAGE ATTENTION MODELS FOR ZERO-SHOT MUSIC TAGGING},
  author={Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong},
  journal={arXiv preprint arXiv:2310.10159},
  year={2023}
}