OpenJMLA开源零样本音乐标签系统 - 解决开放集音乐标签难题

Home

Openjmla

Developed by UniMus

OpenJMLA 是一个零样本音乐标签系统，通过联合音乐和语言注意力模型解决开放集音乐标签问题。

文本生成音频

Transformers

EnglishOpen Source License:CC #零样本音乐标签 #多模态注意力 #开放集识别

Downloads 116

Release Time : 12/5/2023

Model Overview

OpenJMLA 旨在解决开放集音乐标签问题，通过联合音乐和语言注意力（JMLA）模型实现零样本音乐标签系统，在相关数据集上取得了优异的成绩。

Model Features

开放集音乐标签

解决了传统封闭集音乐标签无法推广到新标签的问题。

创新的模型架构

结合音频编码器和语言解码器，引入预感知器重采样器和密集注意力连接。

大规模数据集

使用互联网收集的音乐和描述数据，并通过 ChatGPT 进行形式化和多样化处理。

优异的性能

在 GTZAN 数据集上实现了 64.82% 的零样本音频标签准确率。

Model Capabilities

音乐标签生成

音乐描述生成

零样本学习

Use Cases

音乐分类

流派识别

识别音乐的流派，如流行、摇滚等。

在 GTZAN 数据集上准确率 64.82%

情绪分析

分析音乐的情绪，如忧郁、快乐等。

音乐推荐

场景匹配

根据音乐标签推荐适合的场景，如酒吧、运动等。

🚀 统一音乐项目：OpenJMLA

统一音乐项目 OpenJMLA 旨在解决开放集音乐标签问题，通过联合音乐和语言注意力（JMLA）模型实现零样本音乐标签系统，在相关数据集上取得了优异的成绩。

🚀 快速开始

安装依赖

以下是安装项目所需依赖的命令：

conda create -name SpectPrompt python=3.9
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
pip install transformers datasets librosa einops_exts einops mmcls peft ipdb torchlibrosa
pip install -U openmim
mim install mmcv==1.7.1

使用🤗 Transformers 进行推理

使用 OpenJMLA 进行推理非常简单，只需输入以下几行代码：

from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

model = AutoModel.from_pretrained('UniMus/OpenJMLA', trust_remote_code=True)
device = model.device
# sample rate: 16k
music_path = '/path/to/music.wav'
# 1. get logmelspectrogram
# get the file wav_to_mel.py from https://github.com/taugastcn/SpectPrompt.git
from wav_to_mel import wav_to_mel
lms = wav_to_mel(music_path)

import os
from torch.nn.utils.rnn import pad_sequence
import random
# get the file transforms.py from https://github.com/taugastcn/SpectPrompt.git
from transforms import Normalize, SpecRandomCrop, SpecPadding, SpecRepeat
transforms = [ Normalize(-4.5, 4.5), SpecRandomCrop(target_len=2992), SpecPadding(target_len=2992), SpecRepeat() ]
lms = lms.numpy()
for trans in transforms:
    lms = trans(lms)

# 2. template of input
input_dic = dict()
input_dic['filenames'] = [music_path.split('/')[-1]]
input_dic['ans_crds'] = [0]
input_dic['audio_crds'] = [0]
input_dic['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
input_dic['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
input_dic['spectrogram'] = torch.from_numpy(lms).unsqueeze(dim=0).to(device)
# 3. generation
model.eval()
gen_ids = model.forward_test(input_dic)
gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))
# 4. Post-processing
# Given that the training data may contain biases, the generated texts might need some straightforward post-processing to ensure accuracy.
# In future versions, we will enhance the quality of the data.
gen_text = gen_text[0].split('<s>')[-1].split('\n')[0].strip()
gen_text = gen_text.replace(' in Chinese','')
gen_text = gen_text.replace(' Chinese','')
print(gen_text)

✨ 主要特性

解决开放集音乐标签问题：以往的音乐标签研究主要集中在封闭集音乐标签任务上，无法推广到新标签。本项目提出的零样本音乐标签系统通过联合音乐和语言注意力（JMLA）模型，有效解决了开放集音乐标签问题。
创新的模型架构：JMLA 模型由一个基于预训练掩码自编码器的音频编码器和一个基于 Falcon7B 的解码器组成。引入了预感知器重采样器将任意长度的音频转换为固定长度的嵌入，并在编码器和解码器层之间引入了密集注意力连接，以改善信息流动。
大规模数据集：从互联网上收集了大规模的音乐和描述数据集，并使用 ChatGPT 将原始描述转换为形式化和多样化的描述，用于训练 JMLA 模型。
优异的性能：在 GTZAN 数据集上实现了 64.82% 的零样本音频标签准确率，优于以往的零样本系统，并在 FMA 和 MagnaTagATune 数据集上取得了与以往系统相当的结果。

📦 安装指南

按照以下步骤安装项目所需的依赖：

创建一个名为 SpectPrompt 的 conda 环境，Python 版本为 3.9：

conda create -name SpectPrompt python=3.9

安装 PyTorch 及其相关库：

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

安装其他依赖库：

pip install transformers datasets librosa einops_exts einops mmcls peft ipdb torchlibrosa

安装 OpenMIM 并使用它安装 MMCV：

pip install -U openmim
mim install mmcv==1.7.1

💻 使用示例

基础用法

以下是一个使用 OpenJMLA 进行推理的简单示例：

from transformers import AutoModel, AutoTokenizer
import torch
import numpy as np

model = AutoModel.from_pretrained('UniMus/OpenJMLA', trust_remote_code=True)
device = model.device
# sample rate: 16k
music_path = '/path/to/music.wav'
# 1. get logmelspectrogram
# get the file wav_to_mel.py from https://github.com/taugastcn/SpectPrompt.git
from wav_to_mel import wav_to_mel
lms = wav_to_mel(music_path)

import os
from torch.nn.utils.rnn import pad_sequence
import random
# get the file transforms.py from https://github.com/taugastcn/SpectPrompt.git
from transforms import Normalize, SpecRandomCrop, SpecPadding, SpecRepeat
transforms = [ Normalize(-4.5, 4.5), SpecRandomCrop(target_len=2992), SpecPadding(target_len=2992), SpecRepeat() ]
lms = lms.numpy()
for trans in transforms:
    lms = trans(lms)

# 2. template of input
input_dic = dict()
input_dic['filenames'] = [music_path.split('/')[-1]]
input_dic['ans_crds'] = [0]
input_dic['audio_crds'] = [0]
input_dic['attention_mask'] = torch.tensor([[1, 1, 1, 1, 1]]).to(device)
input_dic['input_ids'] = torch.tensor([[1, 694, 5777, 683, 13]]).to(device)
input_dic['spectrogram'] = torch.from_numpy(lms).unsqueeze(dim=0).to(device)
# 3. generation
model.eval()
gen_ids = model.forward_test(input_dic)
gen_text = model.neck.tokenizer.batch_decode(gen_ids.clip(0))
# 4. Post-processing
# Given that the training data may contain biases, the generated texts might need some straightforward post-processing to ensure accuracy.
# In future versions, we will enhance the quality of the data.
gen_text = gen_text[0].split('<s>')[-1].split('\n')[0].strip()
gen_text = gen_text.replace(' in Chinese','')
gen_text = gen_text.replace(' Chinese','')
print(gen_text)

示例音乐及标签

音乐链接：https://www.youtube.com/watch?v=Q_yuO8UNGmY
标签信息：
- 乐器：人声、钢琴、弦乐
- 流派：流行
- 主题：心碎
- 情绪：忧郁
- 时代：当代
- 节奏：快
- 最佳场景：一个昏暗的小酒吧。这首歌的忧郁情绪将与舞台灵感的旋律相得益彰。

📚 详细文档

本项目是 JMLA 的重新实现。关于 JMLA 模型的详细信息，请参考上述论文。

🔧 技术细节

模型架构

JMLA 模型由一个基于预训练掩码自编码器的音频编码器和一个基于 Falcon7B 的解码器组成。

音频编码器：使用预训练的掩码自编码器对音频进行编码。
解码器：使用 Falcon7B 作为解码器。
预感知器重采样器：将任意长度的音频转换为固定长度的嵌入。
密集注意力连接：在编码器和解码器层之间引入密集注意力连接，以改善信息流动。

数据集

从互联网上收集了大规模的音乐和描述数据集，并使用 ChatGPT 将原始描述转换为形式化和多样化的描述，用于训练 JMLA 模型。

训练和评估

在 GTZAN、FMA 和 MagnaTagATune 等数据集上进行训练和评估。在 GTZAN 数据集上实现了 64.82% 的零样本音频标签准确率，优于以往的零样本系统，并在 FMA 和 MagnaTagATune 数据集上取得了与以往系统相当的结果。

📄 许可证

本项目采用 CC 许可证。

📚 引用

如果您在研究中发现我们的论文和代码有用，请考虑给项目加星并引用：

@article{JMLA,
  title={JOINT MUSIC AND LANGUAGE ATTENTION MODELS FOR ZERO-SHOT MUSIC TAGGING},
  author={Xingjian Du, Zhesong Yu, Jiaju Lin, Bilei Zhu, Qiuqiang Kong},
  journal={arXiv preprint arXiv:2310.10159},
  year={2023}
}