🚀 MAGNeT - Medium - 1.5B - 30secs
MAGNeT是一个文本到音乐和文本到声音的模型,能够根据文本描述生成高质量的音频样本。它基于Transformer架构,为音乐和声音生成领域带来了高效且优质的解决方案。
🚀 快速开始
🤗 Transformers使用方法
即将推出...
Audiocraft使用方法
你可以通过原始的 Audiocraft库 在本地运行MAGNeT:
- 首先安装
audiocraft
库
pip install git+https://github.com/facebookresearch/audiocraft.git
- 确保安装了
ffmpeg
:
apt-get install ffmpeg
- 运行以下Python代码:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-medium-30secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
MAGNeT是一个基于32kHz EnCodec分词器(具有4个码本,采样率为50 Hz)训练的掩码生成非自回归Transformer模型。与以往的工作不同,MAGNeT既不需要语义令牌条件,也不需要模型级联,它使用单个非自回归Transformer生成所有4个码本。
📚 详细文档
模型详情
属性 |
详情 |
开发组织 |
Meta AI的FAIR团队 |
模型日期 |
2023年11月至2024年1月训练 |
模型版本 |
版本1 |
模型类型 |
由用于音频分词的EnCodec模型和基于Transformer架构的非自回归语言模型组成,用于音乐建模。模型有不同大小(300M、1.5B)和两种变体(用于文本到音乐生成任务的模型和用于文本到音频生成的模型) |
参考论文 |
Masked Audio Generation using a Single Non-Autoregressive Transformer |
引用详情 |
@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}} |
许可证 |
代码遵循MIT许可,模型权重遵循CC - BY - NC 4.0许可 |
反馈渠道 |
有关MAGNeT的问题和评论可通过项目的Github仓库发送,或提交问题 |
预期用途
- 主要预期用途:MAGNeT主要用于基于AI的音乐生成研究,包括探索和理解生成模型的局限性以改进科学现状,以及供机器学习爱好者生成文本引导的音乐以了解生成式AI模型的当前能力。
- 主要预期用户:音频、机器学习和人工智能领域的研究人员,以及希望更好理解这些模型的爱好者。
- 非预期用例:在未进行进一步风险评估和缓解的情况下,模型不应用于下游应用。模型不得用于故意创建或传播会给人们带来敌对或疏离环境的音乐作品,包括生成人们可预见会感到不安、苦恼或冒犯的音乐,或传播历史或当前刻板印象的内容。
评估指标
- 模型性能指标:使用以下客观指标在标准音乐基准上评估模型:
- 基于预训练音频分类器(VGGish)提取的特征计算的Frechet音频距离
- 基于预训练音频分类器(PaSST)提取的标签分布的Kullback - Leibler散度
- 基于预训练CLAP模型提取的音频嵌入和文本嵌入之间的CLAP分数
此外,还进行了有人类参与者的定性研究,从以下方面评估模型性能:
- 音乐样本的整体质量
- 与提供的文本输入的相关性
- 决策阈值:不适用
评估数据集
模型在MusicCaps基准和一个领域内保留评估集上进行评估,评估集与训练集无艺术家重叠。
训练数据集
模型在许可数据上进行训练,数据来源包括:Meta Music Initiative Sound Collection、Shutterstock音乐集和Pond5音乐集。有关训练集和相应预处理的更多详细信息,请参阅论文。
评估结果
以下是发布的模型在MusicCaps上获得的客观指标。请注意,对于公开发布的模型,使用了最先进的音乐源分离方法,即开源的Hybrid Transformer for Music Source Separation(HT - Demucs),以仅保留器乐轨道。这解释了与论文中使用的模型在客观指标上的差异。
模型 |
Frechet音频距离 |
KLD |
文本一致性 |
facebook/magnet - small - 10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet - medium - 10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet - small - 30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet - medium - 30secs |
4.63 |
1.20 |
0.28 |
局限性和偏差
- 数据:用于训练模型的数据源由音乐专业人员创建,并与权利持有者签订了法律协议。模型在16000小时的数据上进行训练,相信在更大的数据集上扩展模型可以进一步提高性能。
- 缓解措施:使用相应标签和最先进的音乐源分离方法(即开源的Hybrid Transformer for Music Source Separation(HT - Demucs))从数据源中移除了包含人声的曲目。
- 局限性:
- 模型无法生成逼真的人声。
- 模型使用英文描述进行训练,在其他语言中的表现不佳。
- 模型对所有音乐风格和文化的表现不均。
- 模型有时会生成歌曲结尾,陷入沉默。
- 有时难以确定哪种类型的文本描述能提供最佳生成效果,可能需要进行提示工程以获得满意的结果。
- 偏差:数据源可能缺乏多样性,所有音乐文化在数据集中的代表性不均。模型在各种音乐流派上的表现可能不同,生成的样本会反映训练数据中的偏差。该模型的进一步工作应包括实现文化平衡和公正表示的方法,例如扩展训练数据以使其既多样化又具包容性。
- 风险和危害:模型的偏差和局限性可能导致生成被认为有偏差、不适当或冒犯性的样本。相信提供重现研究和训练新模型的代码将有助于将应用扩展到更新和更具代表性的数据。
- 使用案例:用户必须了解模型的偏差、局限性和风险。MAGNeT是为音乐生成的人工智能研究而开发的模型,因此在未进行进一步调查和风险缓解的情况下,不应将其用于下游应用。
Audio - MAGNeT - 音效生成模型
- 训练数据集:audio - magnet模型在以下数据源上进行训练:AudioSet的一个子集(Gemmeke等人,2017)、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。
- 评估数据集:audio - magnet模型(音效生成)在AudioCaps基准上进行评估。
- 评估结果:以下是发布的audio - magnet模型在AudioCaps(由10秒长的样本组成)上获得的客观指标。
| 模型 | Frechet音频距离 | KLD |
|------|------|------|
| facebook/audio - magnet - small | 3.21 | 1.42 |
| facebook/audio - magnet - medium | 2.32 | 1.64 |
📄 许可证
代码遵循MIT许可,模型权重遵循CC - BY - NC 4.0许可。