🚀 MAGNeT - 小型 - 3亿参数 - 10秒
MAGNeT 是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它是一个掩码生成式非自回归 Transformer,基于一个 32kHz 的 EnCodec 分词器进行训练,该分词器有 4 个码本,采样频率为 50Hz。与以往的工作不同,MAGNeT 既不需要语义令牌条件,也不需要模型级联,它使用单个非自回归 Transformer 生成所有 4 个码本。
🚀 快速开始
Audiocraft 使用方法
你可以通过原始的 Audiocraft 库 在本地运行 MAGNeT:
- 首先安装
audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保安装了
ffmpeg
:
apt-get install ffmpeg
- 运行以下 Python 代码:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-small-10secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- 文本到音乐和文本到声音:能够根据文本描述生成高质量的音频样本。
- 掩码生成式非自回归 Transformer:不需要语义令牌条件和模型级联,使用单个非自回归 Transformer 生成所有 4 个码本。
📚 详细文档
模型详情
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
- 许可证:代码以 MIT 许可证发布,模型权重以 CC - BY - NC 4.0 许可证发布。
- 问题或评论反馈途径:关于 MAGNeT 的问题和评论可以通过项目的 Github 仓库 发送,或者通过创建一个 issue。
预期用途
- 主要预期用途:MAGNeT 的主要用途是基于人工智能的音乐生成研究,包括:
- 研究工作,例如探索和更好地理解生成模型的局限性,以进一步推动科学发展。
- 由文本引导的音乐生成,供机器学习爱好者了解生成式人工智能模型的当前能力。
- 主要预期用户:该模型的主要预期用户是音频、机器学习和人工智能领域的研究人员,以及希望更好地了解这些模型的爱好者。
- 超出范围的用例:在没有进一步的风险评估和缓解措施的情况下,该模型不应用于下游应用。该模型不应被用于故意创建或传播会给人们带来敌意或疏离感的音乐作品。这包括生成人们可能会认为令人不安、苦恼或冒犯的音乐;或传播历史或当前刻板印象的内容。
指标
- 模型性能指标:我们使用以下客观指标在标准音乐基准上评估模型:
- 基于预训练音频分类器(VGGish)提取的特征计算的 Frechet 音频距离。
- 基于预训练音频分类器(PaSST)提取的标签分布的 Kullback - Leibler 散度。
- 从预训练 CLAP 模型提取的音频嵌入和文本嵌入之间的 CLAP 分数。
此外,我们还进行了有人类参与者的定性研究,从以下方面评估模型的性能:
- 音乐样本的整体质量;
- 与提供的文本输入的文本相关性。
关于性能指标和人类研究的更多详细信息可以在论文中找到。
- 决策阈值:不适用。
评估数据集
该模型在 MusicCaps 基准 和一个领域内保留的评估集上进行评估,评估集与训练集没有艺术家重叠。
训练数据集
该模型在以下许可数据上进行训练:Meta 音乐倡议声音集、Shutterstock 音乐集 和 Pond5 音乐集。有关训练集和相应预处理的更多详细信息,请参阅论文。
评估结果
以下是发布的模型在 MusicCaps 上获得的客观指标。请注意,对于公开发布的模型,我们使用了最先进的音乐源分离方法,即开源的 Hybrid Transformer for Music Source Separation(HT - Demucs),以仅保留器乐曲目。这解释了与论文中使用的模型在客观指标上的差异。
模型 |
Frechet 音频距离 |
KLD |
文本一致性 |
facebook/magnet - small - 10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet - medium - 10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet - small - 30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet - medium - 30secs |
4.63 |
1.20 |
0.28 |
Audio - MAGNeT - 音效生成模型
训练数据集
audio - magnet 模型在以下数据源上进行训练:AudioSet 的一个子集(Gemmeke 等人,2017 年)、[BBC 音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim 等人,2019 年)、Clotho v2(Drossos 等人,2020 年)、VGG - Sound(Chen 等人,2020 年)、FSD50K(Fonseca 等人,2021 年)、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。
评估数据集
audio - magnet 模型(音效生成)在 AudioCaps 基准 上进行评估。
评估结果
以下是发布的 audio - magnet 模型在 AudioCaps(由 10 秒长的样本组成)上获得的客观指标。
模型 |
Frechet 音频距离 |
KLD |
facebook/audio - magnet - small |
3.21 |
1.42 |
facebook/audio - magnet - medium |
2.32 |
1.64 |
🔧 技术细节
局限性和偏差
- 数据:用于训练模型的数据源由音乐专业人士创建,并与权利持有者签订了法律协议。该模型在 16000 小时的数据上进行训练,我们认为在更大的数据集上扩展模型可以进一步提高模型的性能。
- 缓解措施:使用相应的标签和最先进的音乐源分离方法,即开源的 Hybrid Transformer for Music Source Separation(HT - Demucs),从数据源中移除了包含人声的曲目。
- 局限性:
- 该模型无法生成逼真的人声。
- 该模型使用英语描述进行训练,在其他语言中的表现不佳。
- 该模型并非对所有音乐风格和文化都表现同样出色。
- 该模型有时会生成歌曲结尾,逐渐变为静音。
- 有时很难评估哪种类型的文本描述能提供最佳的生成效果。可能需要进行提示工程才能获得满意的结果。
- 偏差:数据源可能缺乏多样性,并非所有音乐文化在数据集中都得到了平等的体现。该模型在各种音乐流派上的表现可能不尽相同。模型生成的样本将反映训练数据中的偏差。对该模型的进一步研究应包括实现文化平衡和公正表示的方法,例如,扩大训练数据以使其既多样化又具有包容性。
- 风险和危害:模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。我们认为,提供重现研究和训练新模型的代码将有助于将应用扩展到新的、更具代表性的数据。
- 用例:用户必须了解该模型的偏差、局限性和风险。MAGNeT 是一个为人工智能音乐生成研究而开发的模型。因此,在没有进一步调查和缓解风险的情况下,它不应用于下游应用。
📄 许可证
代码以 MIT 许可证发布,模型权重以 CC - BY - NC 4.0 许可证发布。