OpenJMLA開源零樣本音樂標籤系統 - 解決開放集音樂標籤難題

首頁

Openjmla

由UniMus開發

OpenJMLA 是一個零樣本音樂標籤系統，通過聯合音樂和語言注意力模型解決開放集音樂標籤問題。

文本生成音頻

Transformers

英語開源協議:CC #零樣本音樂標籤 #多模態注意力 #開放集識別

下載量 116

發布時間 : 12/5/2023

模型概述

OpenJMLA 旨在解決開放集音樂標籤問題，通過聯合音樂和語言注意力（JMLA）模型實現零樣本音樂標籤系統，在相關數據集上取得了優異的成績。

模型特點

開放集音樂標籤

解決了傳統封閉集音樂標籤無法推廣到新標籤的問題。

創新的模型架構

結合音頻編碼器和語言解碼器，引入預感知器重採樣器和密集註意力連接。

大規模數據集

使用互聯網收集的音樂和描述數據，並通過 ChatGPT 進行形式化和多樣化處理。

優異的性能

在 GTZAN 數據集上實現了 64.82% 的零樣本音頻標籤準確率。

模型能力

音樂標籤生成

音樂描述生成

零樣本學習

使用案例

音樂分類

流派識別

識別音樂的流派，如流行、搖滾等。

在 GTZAN 數據集上準確率 64.82%

情緒分析

分析音樂的情緒，如憂鬱、快樂等。

音樂推薦

場景匹配

根據音樂標籤推薦適合的場景，如酒吧、運動等。

🚀 統一音樂項目：OpenJMLA

統一音樂項目 OpenJMLA 旨在解決開放集音樂標籤問題，通過聯合音樂和語言注意力（JMLA）模型實現零樣本音樂標籤系統，在相關數據集上取得了優異的成績。

🚀 快速開始

安裝依賴

以下是安裝項目所需依賴的命令：

conda create -name SpectPrompt python=3.9
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets librosa einops_exts einops mmcls peft ipdb torchlibrosa
pip install -U openmim
mim install mmcv==1.7.1

使用🤗 Transformers 進行推理

使用 OpenJMLA 進行推理非常簡單，只需輸入以下幾行代碼：

from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

model = AutoModel.from_pretrained('UniMus/OpenJMLA', trust_remote_code=True)
device = model.device
# sample rate: 16k
music_path = '/path/to/music.wav'
# 1. get logmelspectrogram
# get the file wav_to_mel.py from https://github.com/taugastcn/SpectPrompt.git
from wav_to_mel import wav_to_mel
lms = wav_to_mel(music_path)

import os
from torch.nn.utils.rnn import pad_sequence
import random
# get the file transforms.py from https://github.com/taugastcn/SpectPrompt.git
from transforms import Normalize, SpecRandomCrop, SpecPadding, SpecRepeat
transforms = [ Normalize(-4.5, 4.5), SpecRandomCrop(target_len=2992), SpecPadding(target_len=2992), SpecRepeat() ]
lms = lms.numpy()
for trans in transforms:
    lms = trans(lms)

# 2. template of input
input_dic = dict()
input_dic['filenames'] = [music_path.split('/')[-1]]
input_dic['ans_crds'] = [0]
input_dic['audio_crds'] = [0]
input_dic['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
input_dic['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
input_dic['spectrogram'] = torch.from_numpy(lms).unsqueeze(dim=0).to(device)
# 3. generation
model.eval()
gen_ids = model.forward_test(input_dic)
gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))
# 4. Post-processing
# Given that the training data may contain biases, the generated texts might need some straightforward post-processing to ensure accuracy.
# In future versions, we will enhance the quality of the data.
gen_text = gen_text[0].split('<s>')[-1].split('\n')[0].strip()
gen_text = gen_text.replace(' in Chinese','')
gen_text = gen_text.replace(' Chinese','')
print(gen_text)

✨ 主要特性

解決開放集音樂標籤問題：以往的音樂標籤研究主要集中在封閉集音樂標籤任務上，無法推廣到新標籤。本項目提出的零樣本音樂標籤系統通過聯合音樂和語言注意力（JMLA）模型，有效解決了開放集音樂標籤問題。
創新的模型架構：JMLA 模型由一個基於預訓練掩碼自編碼器的音頻編碼器和一個基於 Falcon7B 的解碼器組成。引入了預感知器重採樣器將任意長度的音頻轉換為固定長度的嵌入，並在編碼器和解碼器層之間引入了密集註意力連接，以改善信息流動。
大規模數據集：從互聯網上收集了大規模的音樂和描述數據集，並使用 ChatGPT 將原始描述轉換為形式化和多樣化的描述，用於訓練 JMLA 模型。
優異的性能：在 GTZAN 數據集上實現了 64.82% 的零樣本音頻標籤準確率，優於以往的零樣本系統，並在 FMA 和 MagnaTagATune 數據集上取得了與以往系統相當的結果。

📦 安裝指南

按照以下步驟安裝項目所需的依賴：

創建一個名為 SpectPrompt 的 conda 環境，Python 版本為 3.9：

conda create -name SpectPrompt python=3.9

安裝 PyTorch 及其相關庫：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安裝其他依賴庫：

pip install transformers datasets librosa einops_exts einops mmcls peft ipdb torchlibrosa

安裝 OpenMIM 並使用它安裝 MMCV：

pip install -U openmim
mim install mmcv==1.7.1

💻 使用示例

基礎用法

以下是一個使用 OpenJMLA 進行推理的簡單示例：

from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

model = AutoModel.from_pretrained('UniMus/OpenJMLA', trust_remote_code=True)
device = model.device
# sample rate: 16k
music_path = '/path/to/music.wav'
# 1. get logmelspectrogram
# get the file wav_to_mel.py from https://github.com/taugastcn/SpectPrompt.git
from wav_to_mel import wav_to_mel
lms = wav_to_mel(music_path)

import os
from torch.nn.utils.rnn import pad_sequence
import random
# get the file transforms.py from https://github.com/taugastcn/SpectPrompt.git
from transforms import Normalize, SpecRandomCrop, SpecPadding, SpecRepeat
transforms = [ Normalize(-4.5, 4.5), SpecRandomCrop(target_len=2992), SpecPadding(target_len=2992), SpecRepeat() ]
lms = lms.numpy()
for trans in transforms:
    lms = trans(lms)

# 2. template of input
input_dic = dict()
input_dic['filenames'] = [music_path.split('/')[-1]]
input_dic['ans_crds'] = [0]
input_dic['audio_crds'] = [0]
input_dic['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
input_dic['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
input_dic['spectrogram'] = torch.from_numpy(lms).unsqueeze(dim=0).to(device)
# 3. generation
model.eval()
gen_ids = model.forward_test(input_dic)
gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))
# 4. Post-processing
# Given that the training data may contain biases, the generated texts might need some straightforward post-processing to ensure accuracy.
# In future versions, we will enhance the quality of the data.
gen_text = gen_text[0].split('<s>')[-1].split('\n')[0].strip()
gen_text = gen_text.replace(' in Chinese','')
gen_text = gen_text.replace(' Chinese','')
print(gen_text)

示例音樂及標籤

音樂鏈接：https://www.youtube.com/watch?v=Q_yuO8UNGmY
標籤信息：
- 樂器：人聲、鋼琴、絃樂
- 流派：流行
- 主題：心碎
- 情緒：憂鬱
- 時代：當代
- 節奏：快
- 最佳場景：一個昏暗的小酒吧。這首歌的憂鬱情緒將與舞臺靈感的旋律相得益彰。

📚 詳細文檔

本項目是 JMLA 的重新實現。關於 JMLA 模型的詳細信息，請參考上述論文。

🔧 技術細節

模型架構

JMLA 模型由一個基於預訓練掩碼自編碼器的音頻編碼器和一個基於 Falcon7B 的解碼器組成。

音頻編碼器：使用預訓練的掩碼自編碼器對音頻進行編碼。
解碼器：使用 Falcon7B 作為解碼器。
預感知器重採樣器：將任意長度的音頻轉換為固定長度的嵌入。
密集註意力連接：在編碼器和解碼器層之間引入密集註意力連接，以改善信息流動。

數據集

從互聯網上收集了大規模的音樂和描述數據集，並使用 ChatGPT 將原始描述轉換為形式化和多樣化的描述，用於訓練 JMLA 模型。

訓練和評估

在 GTZAN、FMA 和 MagnaTagATune 等數據集上進行訓練和評估。在 GTZAN 數據集上實現了 64.82% 的零樣本音頻標籤準確率，優於以往的零樣本系統，並在 FMA 和 MagnaTagATune 數據集上取得了與以往系統相當的結果。

📄 許可證

本項目採用 CC 許可證。

📚 引用

如果您在研究中發現我們的論文和代碼有用，請考慮給項目加星並引用：

@article{JMLA,
  title={JOINT MUSIC AND LANGUAGE ATTENTION MODELS FOR ZERO-SHOT MUSIC TAGGING},
  author={Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong},
  journal={arXiv preprint arXiv:2310.10159},
  year={2023}
}