開源audio-magnet-medium模型 - 根據文本描述免費生成高質量音樂與音效

首頁

Audio Magnet Medium

由facebook開發

MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型，能夠根據文本描述生成高質量音頻樣本。

音頻生成 #非自迴歸音樂生成 #掩碼Transformer架構 #32kHz高保真

下載量 435

發布時間 : 1/10/2024

模型概述

MAGNeT採用掩碼生成式非自迴歸Transformer架構，基於32kHz EnCodec分詞器訓練，使用4個50Hz採樣的碼本。該模型無需語義標記條件輸入或級聯模型，僅通過單一非自迴歸Transformer即可生成全部4個碼本。

模型特點

單一非自迴歸Transformer架構

無需級聯模型或語義標記條件輸入，僅通過單一Transformer生成全部碼本。

高質量音頻生成

能夠根據文本描述生成高質量的音樂和音效樣本。

多碼本支持

基於32kHz EnCodec分詞器訓練，使用4個50Hz採樣的碼本。

模型能力

文本生成音樂

文本生成音效

高質量音頻樣本生成

使用案例

人工智能音樂生成研究

音樂創作輔助

根據文本描述生成歡快的搖滾或充滿能量的電子舞曲。

生成高質量的音樂樣本

機器學習愛好者探索

生成模型能力探索

探索非自迴歸Transformer在音頻生成中的應用。

理解模型在音頻生成中的表現

🚀 Audio-MAGNeT - Medium - 1.5B

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它可以解決文本到音頻生成的問題，為音樂和聲音生成領域的研究和應用提供了強大的工具。

🚀 快速開始

你可以通過原始的 Audiocraft庫在本地運行MAGNeT：

首先安裝 audiocraft 庫

pip install git+https://github.com/facebookresearch/audiocraft.git

確保安裝了 ffmpeg：

apt-get install ffmpeg

運行以下Python代碼：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

MAGNeT是一個基於Transformer架構的非自迴歸模型，能夠直接生成音頻樣本，無需語義令牌條件或模型級聯。
它使用單個非自迴歸Transformer生成所有4個碼本，提高了生成效率。
模型有不同的大小（300M、1.5B）和兩種變體（文本到音樂生成和文本到音頻生成），可以滿足不同的應用需求。

📦 安裝指南

安裝Audiocraft庫

pip install git+https://github.com/facebookresearch/audiocraft.git

安裝FFmpeg

apt-get install ffmpeg

💻 使用示例

基礎用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 詳細文檔

模型詳情

屬性	詳情
開發組織	Meta AI的FAIR團隊
模型日期	2023年11月至2024年1月訓練
模型版本	版本1
模型類型	由用於音頻標記化的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成，有不同大小（300M、1.5B）和兩種變體（文本到音樂生成和文本到音頻生成）
更多信息資源	論文 Masked Audio Generation using a Single Non-Autoregressive Transformer
引用詳情

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

預期用途

主要預期用途：基於AI的音樂生成研究，包括探索和理解生成模型的侷限性以改進科學現狀，以及讓機器學習愛好者通過文本引導生成音樂來了解生成式AI模型的當前能力。
主要預期用戶：音頻、機器學習和人工智能領域的研究人員以及希望更好理解這些模型的業餘愛好者。
超出範圍的用例：在未進行進一步風險評估和緩解的情況下，不應將模型用於下游應用；不應故意使用模型創建或傳播會給人造成敵對或疏離環境的音樂作品。

評估指標

模型性能指標：
- 使用預訓練音頻分類器（VGGish）提取的特徵計算Frechet音頻距離。
- 對預訓練音頻分類器（PaSST）提取的標籤分佈計算Kullback - Leibler散度。
- 計算預訓練CLAP模型提取的音頻嵌入和文本嵌入之間的CLAP分數。
- 此外，還進行了人類參與者的定性研究，從音樂樣本的整體質量和與輸入文本的相關性兩個方面評估模型性能。
決策閾值：不適用。

評估數據集

在 MusicCaps基準和一個領域內保留評估集上進行評估，評估集與訓練集無藝術家重疊。

訓練數據集

使用以下來源的許可數據進行訓練：Meta Music Initiative Sound Collection、Shutterstock音樂集和 Pond5音樂集。

評估結果

以下是發佈的模型在MusicCaps上獲得的客觀指標：

模型	Frechet音頻距離	KLD	文本一致性
facebook/magnet-small-10secs	4.22	1.11	0.28
facebook/magnet-medium-10secs	4.61	1.14	0.28
facebook/magnet-small-30secs	4.35	1.17	0.28
facebook/magnet-medium-30secs	4.63	1.20	0.28

侷限性和偏差

數據方面：訓練模型使用的數據源由音樂專業人士創建，並與權利持有者簽訂了法律協議。模型在16K小時的數據上進行訓練，認為在更大的數據集上擴展模型可以進一步提高性能。
緩解措施：使用相應標籤和最先進的音樂源分離方法（開源的 Hybrid Transformer for Music Source Separation（HT - Demucs））從數據源中移除包含人聲的曲目。
侷限性：
- 模型無法生成逼真的人聲。
- 模型使用英文描述進行訓練，在其他語言中的表現不佳。
- 模型在所有音樂風格和文化中的表現不均。
- 模型有時會生成歌曲結尾並陷入沉默。
- 有時難以確定哪種文本描述能提供最佳生成效果，可能需要進行提示工程以獲得滿意結果。
偏差：數據源可能缺乏多樣性，並非所有音樂文化在數據集中都得到平等代表。模型在各種音樂流派上的表現可能不均，生成的樣本會反映訓練數據中的偏差。未來應採用方法實現文化的平衡和公正代表，例如擴展訓練數據使其多樣化和包容。
風險和危害：模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。提供代碼以重現研究和訓練新模型有助於將應用擴展到更新和更具代表性的數據。
使用案例：用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是為音樂生成的人工智能研究而開發的模型，在未進行進一步調查和風險緩解的情況下，不應將其用於下游應用。

Audio - MAGNeT - 音效生成模型

訓練數據集

audio - magnet模型在以下數據源上進行訓練：AudioSet的一個子集（Gemmeke等人，2017）、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。