magnet-small-10secs開源音頻生成模型 - 依據文本描述免費打造高質量音頻

首頁

Magnet Small 10secs

由facebook開發

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

音頻生成 #文本生成音樂 #非自迴歸Transformer #32kHz高保真

下載量 976

發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer，使用4個以50 Hz採樣的碼本進行訓練。它不需要語義標記條件或模型級聯，使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

非自迴歸生成

使用單一的非自迴歸Transformer生成所有碼本，無需級聯模型

高質量音頻生成

能夠根據文本描述生成32kHz採樣率的高質量音頻樣本

多樣化風格支持

支持生成多種音樂風格，包括嘻哈、放克浩室、低保真等

模型能力

文本到音樂生成

文本到音效生成

短音頻片段生成（10秒）

使用案例

音樂創作

背景音樂生成

為視頻、播客等內容生成背景音樂

生成10秒長的音樂片段

音樂靈感探索

通過文本提示探索不同風格的音樂創作可能性

生成多樣化的音樂樣本

音效設計

遊戲音效生成

為遊戲場景生成環境音效

生成10秒長的音效片段

🚀 MAGNeT - 小型 - 3億參數 - 10秒

MAGNeT 是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它是一個掩碼生成式非自迴歸 Transformer，基於一個 32kHz 的 EnCodec 分詞器進行訓練，該分詞器有 4 個碼本，採樣頻率為 50Hz。與以往的工作不同，MAGNeT 既不需要語義令牌條件，也不需要模型級聯，它使用單個非自迴歸 Transformer 生成所有 4 個碼本。

🚀 快速開始

Audiocraft 使用方法

你可以通過原始的 Audiocraft 庫在本地運行 MAGNeT：

首先安裝 audiocraft 庫

pip install git+https://github.com/facebookresearch/audiocraft.git

確保安裝了 ffmpeg：

apt-get install ffmpeg

運行以下 Python 代碼：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-10secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成 2 個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

文本到音樂和文本到聲音：能夠根據文本描述生成高質量的音頻樣本。
掩碼生成式非自迴歸 Transformer：不需要語義令牌條件和模型級聯，使用單個非自迴歸 Transformer 生成所有 4 個碼本。

📚 詳細文檔

模型詳情

開發組織：Meta AI 的 FAIR 團隊。
模型日期：MAGNeT 在 2023 年 11 月至 2024 年 1 月期間進行訓練。
模型版本：這是模型的第 1 版。
模型類型：MAGNeT 由一個用於音頻分詞的 EnCodec 模型和一個基於 Transformer 架構的非自迴歸語言模型組成，用於音樂建模。該模型有不同的大小：3 億參數、15 億參數；以及兩種變體：一種是為文本到音樂生成任務訓練的模型，另一種是為文本到音頻生成訓練的模型。
論文或更多信息資源：更多信息可以在論文 Masked Audio Generation using a Single Non - Autoregressive Transformer 中找到。
引用詳情：

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

許可證：代碼以 MIT 許可證發佈，模型權重以 CC - BY - NC 4.0 許可證發佈。
問題或評論反饋途徑：關於 MAGNeT 的問題和評論可以通過項目的 Github 倉庫發送，或者通過創建一個 issue。

預期用途

主要預期用途：MAGNeT 的主要用途是基於人工智能的音樂生成研究，包括：
- 研究工作，例如探索和更好地理解生成模型的侷限性，以進一步推動科學發展。
- 由文本引導的音樂生成，供機器學習愛好者瞭解生成式人工智能模型的當前能力。
主要預期用戶：該模型的主要預期用戶是音頻、機器學習和人工智能領域的研究人員，以及希望更好地瞭解這些模型的愛好者。
超出範圍的用例：在沒有進一步的風險評估和緩解措施的情況下，該模型不應用於下游應用。該模型不應被用於故意創建或傳播會給人們帶來敵意或疏離感的音樂作品。這包括生成人們可能會認為令人不安、苦惱或冒犯的音樂；或傳播歷史或當前刻板印象的內容。

指標

模型性能指標：我們使用以下客觀指標在標準音樂基準上評估模型：
- 基於預訓練音頻分類器（VGGish）提取的特徵計算的 Frechet 音頻距離。
- 基於預訓練音頻分類器（PaSST）提取的標籤分佈的 Kullback - Leibler 散度。
- 從預訓練 CLAP 模型提取的音頻嵌入和文本嵌入之間的 CLAP 分數。此外，我們還進行了有人類參與者的定性研究，從以下方面評估模型的性能：
- 音樂樣本的整體質量；
- 與提供的文本輸入的文本相關性。關於性能指標和人類研究的更多詳細信息可以在論文中找到。
決策閾值：不適用。

評估數據集

該模型在 MusicCaps 基準和一個領域內保留的評估集上進行評估，評估集與訓練集沒有藝術家重疊。

訓練數據集

該模型在以下許可數據上進行訓練：Meta 音樂倡議聲音集、Shutterstock 音樂集和 Pond5 音樂集。有關訓練集和相應預處理的更多詳細信息，請參閱論文。

評估結果

以下是發佈的模型在 MusicCaps 上獲得的客觀指標。請注意，對於公開發布的模型，我們使用了最先進的音樂源分離方法，即開源的 Hybrid Transformer for Music Source Separation（HT - Demucs），以僅保留器樂曲目。這解釋了與論文中使用的模型在客觀指標上的差異。

模型	Frechet 音頻距離	KLD	文本一致性
facebook/magnet - small - 10secs	4.22	1.11	0.28
facebook/magnet - medium - 10secs	4.61	1.14	0.28
facebook/magnet - small - 30secs	4.35	1.17	0.28
facebook/magnet - medium - 30secs	4.63	1.20	0.28

Audio - MAGNeT - 音效生成模型

訓練數據集

audio - magnet 模型在以下數據源上進行訓練：AudioSet 的一個子集（Gemmeke 等人，2017 年）、[BBC 音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim 等人，2019 年）、Clotho v2（Drossos 等人，2020 年）、VGG - Sound（Chen 等人，2020 年）、FSD50K（Fonseca 等人，2021 年）、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。

評估數據集

audio - magnet 模型（音效生成）在 AudioCaps 基準上進行評估。

評估結果

以下是發佈的 audio - magnet 模型在 AudioCaps（由 10 秒長的樣本組成）上獲得的客觀指標。

模型	Frechet 音頻距離	KLD
facebook/audio - magnet - small	3.21	1.42
facebook/audio - magnet - medium	2.32	1.64

🔧 技術細節

侷限性和偏差

數據：用於訓練模型的數據源由音樂專業人士創建，並與權利持有者簽訂了法律協議。該模型在 16000 小時的數據上進行訓練，我們認為在更大的數據集上擴展模型可以進一步提高模型的性能。
緩解措施：使用相應的標籤和最先進的音樂源分離方法，即開源的 Hybrid Transformer for Music Source Separation（HT - Demucs），從數據源中移除了包含人聲的曲目。
侷限性：
- 該模型無法生成逼真的人聲。
- 該模型使用英語描述進行訓練，在其他語言中的表現不佳。
- 該模型並非對所有音樂風格和文化都表現同樣出色。
- 該模型有時會生成歌曲結尾，逐漸變為靜音。
- 有時很難評估哪種類型的文本描述能提供最佳的生成效果。可能需要進行提示工程才能獲得滿意的結果。
偏差：數據源可能缺乏多樣性，並非所有音樂文化在數據集中都得到了平等的體現。該模型在各種音樂流派上的表現可能不盡相同。模型生成的樣本將反映訓練數據中的偏差。對該模型的進一步研究應包括實現文化平衡和公正表示的方法，例如，擴大訓練數據以使其既多樣化又具有包容性。
風險和危害：模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。我們認為，提供重現研究和訓練新模型的代碼將有助於將應用擴展到新的、更具代表性的數據。
用例：用戶必須瞭解該模型的偏差、侷限性和風險。MAGNeT 是一個為人工智能音樂生成研究而開發的模型。因此，在沒有進一步調查和緩解風險的情況下，它不應用於下游應用。