开源audio-magnet-medium模型 - 根据文本描述免费生成高质量音乐与音效

首页

Audio Magnet Medium

由 facebook 开发

MAGNeT是一款基于非自回归Transformer的文本生成音乐与音效模型，能够根据文本描述生成高质量音频样本。

音频生成 #非自回归音乐生成 #掩码Transformer架构 #32kHz高保真

下载量 435

发布时间 : 1/10/2024

模型简介

MAGNeT采用掩码生成式非自回归Transformer架构，基于32kHz EnCodec分词器训练，使用4个50Hz采样的码本。该模型无需语义标记条件输入或级联模型，仅通过单一非自回归Transformer即可生成全部4个码本。

模型特点

单一非自回归Transformer架构

无需级联模型或语义标记条件输入，仅通过单一Transformer生成全部码本。

高质量音频生成

能够根据文本描述生成高质量的音乐和音效样本。

多码本支持

基于32kHz EnCodec分词器训练，使用4个50Hz采样的码本。

模型能力

文本生成音乐

文本生成音效

高质量音频样本生成

使用案例

人工智能音乐生成研究

音乐创作辅助

根据文本描述生成欢快的摇滚或充满能量的电子舞曲。

生成高质量的音乐样本

机器学习爱好者探索

生成模型能力探索

探索非自回归Transformer在音频生成中的应用。

理解模型在音频生成中的表现

🚀 Audio-MAGNeT - Medium - 1.5B

MAGNeT是一个文本到音乐和文本到声音的模型，能够根据文本描述生成高质量的音频样本。它可以解决文本到音频生成的问题，为音乐和声音生成领域的研究和应用提供了强大的工具。

🚀 快速开始

你可以通过原始的 Audiocraft库在本地运行MAGNeT：

首先安装 audiocraft 库

pip install git+https://github.com/facebookresearch/audiocraft.git

确保安装了 ffmpeg：

apt-get install ffmpeg

运行以下Python代码：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度归一化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

MAGNeT是一个基于Transformer架构的非自回归模型，能够直接生成音频样本，无需语义令牌条件或模型级联。
它使用单个非自回归Transformer生成所有4个码本，提高了生成效率。
模型有不同的大小（300M、1.5B）和两种变体（文本到音乐生成和文本到音频生成），可以满足不同的应用需求。

📦 安装指南

安装Audiocraft库

pip install git+https://github.com/facebookresearch/audiocraft.git

安装FFmpeg

apt-get install ffmpeg

💻 使用示例

基础用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2个样本。

for idx, one_wav in enumerate(wav):
    # 将以 -14 db LUFS 的响度归一化保存为 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 详细文档

模型详情

属性	详情
开发组织	Meta AI的FAIR团队
模型日期	2023年11月至2024年1月训练
模型版本	版本1
模型类型	由用于音频标记化的EnCodec模型和基于Transformer架构的非自回归语言模型组成，有不同大小（300M、1.5B）和两种变体（文本到音乐生成和文本到音频生成）
更多信息资源	论文 Masked Audio Generation using a Single Non-Autoregressive Transformer
引用详情

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

预期用途

主要预期用途：基于AI的音乐生成研究，包括探索和理解生成模型的局限性以改进科学现状，以及让机器学习爱好者通过文本引导生成音乐来了解生成式AI模型的当前能力。
主要预期用户：音频、机器学习和人工智能领域的研究人员以及希望更好理解这些模型的业余爱好者。
超出范围的用例：在未进行进一步风险评估和缓解的情况下，不应将模型用于下游应用；不应故意使用模型创建或传播会给人造成敌对或疏离环境的音乐作品。

评估指标

模型性能指标：
- 使用预训练音频分类器（VGGish）提取的特征计算Frechet音频距离。
- 对预训练音频分类器（PaSST）提取的标签分布计算Kullback - Leibler散度。
- 计算预训练CLAP模型提取的音频嵌入和文本嵌入之间的CLAP分数。
- 此外，还进行了人类参与者的定性研究，从音乐样本的整体质量和与输入文本的相关性两个方面评估模型性能。
决策阈值：不适用。

评估数据集

在 MusicCaps基准和一个领域内保留评估集上进行评估，评估集与训练集无艺术家重叠。

训练数据集

使用以下来源的许可数据进行训练：Meta Music Initiative Sound Collection、Shutterstock音乐集和 Pond5音乐集。

评估结果

以下是发布的模型在MusicCaps上获得的客观指标：

模型	Frechet音频距离	KLD	文本一致性
facebook/magnet-small-10secs	4.22	1.11	0.28
facebook/magnet-medium-10secs	4.61	1.14	0.28
facebook/magnet-small-30secs	4.35	1.17	0.28
facebook/magnet-medium-30secs	4.63	1.20	0.28

局限性和偏差

数据方面：训练模型使用的数据源由音乐专业人士创建，并与权利持有者签订了法律协议。模型在16K小时的数据上进行训练，认为在更大的数据集上扩展模型可以进一步提高性能。
缓解措施：使用相应标签和最先进的音乐源分离方法（开源的 Hybrid Transformer for Music Source Separation（HT - Demucs））从数据源中移除包含人声的曲目。
局限性：
- 模型无法生成逼真的人声。
- 模型使用英文描述进行训练，在其他语言中的表现不佳。
- 模型在所有音乐风格和文化中的表现不均。
- 模型有时会生成歌曲结尾并陷入沉默。
- 有时难以确定哪种文本描述能提供最佳生成效果，可能需要进行提示工程以获得满意结果。
偏差：数据源可能缺乏多样性，并非所有音乐文化在数据集中都得到平等代表。模型在各种音乐流派上的表现可能不均，生成的样本会反映训练数据中的偏差。未来应采用方法实现文化的平衡和公正代表，例如扩展训练数据使其多样化和包容。
风险和危害：模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。提供代码以重现研究和训练新模型有助于将应用扩展到更新和更具代表性的数据。
使用案例：用户必须了解模型的偏差、局限性和风险。MAGNeT是为音乐生成的人工智能研究而开发的模型，在未进行进一步调查和风险缓解的情况下，不应将其用于下游应用。

Audio - MAGNeT - 音效生成模型

训练数据集

audio - magnet模型在以下数据源上进行训练：AudioSet的一个子集（Gemmeke等人，2017）、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。