magnet-small-30secs開源音頻生成模型 - 根據文本描述免費生成高質量音頻

首頁

Magnet Small 30secs

由facebook開發

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

音頻生成 #文本生成音樂 #非自迴歸Transformer #32kHz高保真

下載量 215

發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer，使用4個以50Hz採樣的碼本。它不需要語義標記條件或模型級聯，使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

單一非自迴歸Transformer

使用單一的非自迴歸Transformer生成所有4個碼本，無需模型級聯。

高質量音頻生成

能夠根據文本描述生成高質量的音頻樣本。

多碼本生成

使用4個以50Hz採樣的碼本進行音頻生成。

模型能力

文本到音樂生成

文本到聲音生成

高質量音頻合成

使用案例

音樂創作

生成特定風格的音樂

根據文本描述生成特定風格的音樂，如80年代嘻哈風格的放克浩室音樂。

生成30秒的高質量音樂樣本。

播客背景音樂

生成適合播客開場的吸引人節奏。

生成30秒的高質量背景音樂。

音效生成

生成特定音效

根據文本描述生成特定音效，如自然環境聲音或機械聲音。

生成30秒的高質量音效樣本。

🚀 MAGNeT - 小型 - 3億參數 - 30秒音頻

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它通過基於Transformer架構的非自迴歸模型，結合先進的音頻編碼技術，為用戶提供了一種高效、靈活的音頻生成解決方案。

🚀 快速開始

你可以通過原始的 Audiocraft庫在本地運行MAGNeT：

首先安裝 audiocraft 庫

pip install git+https://github.com/facebookresearch/audiocraft.git

確保已安裝 ffmpeg：

apt-get install ffmpeg

運行以下Python代碼：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

MAGNeT是一個基於Transformer架構的非自迴歸模型，能夠根據文本描述生成高質量的音頻樣本。
它採用了先進的音頻編碼技術，能夠生成具有高保真度和多樣性的音頻。
該模型不需要語義令牌調節或模型級聯，使用單個非自迴歸Transformer生成所有4個碼本。

📦 安裝指南

安裝Audiocraft庫

pip install git+https://github.com/facebookresearch/audiocraft.git

安裝ffmpeg

apt-get install ffmpeg

💻 使用示例

基礎用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 詳細文檔

模型詳情

屬性	詳情
開發組織	Meta AI的FAIR團隊
模型日期	2023年11月至2024年1月
模型版本	版本1
模型類型	MAGNeT由用於音頻標記化的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成，用於音樂建模。模型有不同的大小：3億參數、15億參數；有兩種變體：用於文本到音樂生成任務的模型和用於文本到音頻生成的模型。
更多信息的論文或資源	使用單個非自迴歸Transformer進行掩碼音頻生成
引用詳情	`@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}}`
許可證	代碼以MIT許可證發佈，模型權重以CC - BY - NC 4.0許可證發佈。
反饋渠道	有關MAGNeT的問題和評論可以通過項目的Github倉庫發送，或通過創建問題來反饋。

預期用途

主要預期用途：MAGNeT的主要用途是基於人工智能的音樂生成研究，包括：研究工作，如探索和更好地理解生成模型的侷限性，以進一步推動科學發展；由文本引導的音樂生成，供機器學習愛好者瞭解生成式AI模型的當前能力。
主要預期用戶：該模型的主要預期用戶是音頻、機器學習和人工智能領域的研究人員，以及希望更好地理解這些模型的愛好者。
超出範圍的用例：在沒有進一步的風險評估和緩解措施的情況下，該模型不應用於下游應用。該模型不應被用於故意創建或傳播會給人們造成敵對或疏離環境的音樂作品。這包括生成人們可預見會覺得不安、痛苦或冒犯的音樂；或傳播歷史或當前刻板印象的內容。

指標

模型性能指標：我們使用以下客觀指標在標準音樂基準上評估模型：基於預訓練音頻分類器（VGGish）提取的特徵計算的Fréchet音頻距離；基於預訓練音頻分類器（PaSST）提取的標籤分佈計算的Kullback - Leibler散度；基於預訓練CLAP模型提取的音頻嵌入和文本嵌入之間的CLAP分數。此外，我們還進行了有人類參與者的定性研究，從以下方面評估模型的性能：音樂樣本的整體質量；與提供的文本輸入的文本相關性。更多關於性能指標和人類研究的詳細信息可以在論文中找到。
決策閾值：不適用。

評估數據集

該模型在MusicCaps基準和一個領域內保留的評估集上進行了評估，評估集與訓練集沒有藝術家重疊。

訓練數據集

該模型在使用以下來源的許可數據上進行訓練：Meta音樂倡議聲音集、Shutterstock音樂集和Pond5音樂集。有關訓練集和相應預處理的更多詳細信息，請參閱論文。

評估結果

以下是發佈的模型在MusicCaps上獲得的客觀指標。請注意，對於公開發布的模型，我們使用了最先進的音樂源分離方法，即開源的用於音樂源分離的混合Transformer（HT - Demucs），以僅保留器樂曲目。這解釋了與論文中使用的模型在客觀指標上的差異。

模型	Fréchet音頻距離	KLD	文本一致性
facebook/magnet - small - 10secs	4.22	1.11	0.28
facebook/magnet - medium - 10secs	4.61	1.14	0.28
facebook/magnet - small - 30secs	4.35	1.17	0.28
facebook/magnet - medium - 30secs	4.63	1.20	0.28

侷限性和偏差

數據：用於訓練模型的數據源由音樂專業人士創建，並與權利持有者簽訂了法律協議。模型在16000小時的數據上進行訓練，我們認為在更大的數據集上擴展模型可以進一步提高模型的性能。
緩解措施：使用相應的標籤和最先進的音樂源分離方法，即開源的用於音樂源分離的混合Transformer（HT - Demucs），從數據源中移除了包含人聲的曲目。
侷限性：模型無法生成逼真的人聲；模型使用英文描述進行訓練，在其他語言中的表現不佳；模型並非對所有音樂風格和文化都有同樣好的表現；模型有時會生成歌曲結尾，陷入沉默；有時很難評估哪種類型的文本描述能提供最佳的生成效果，可能需要進行提示工程以獲得滿意的結果。
偏差：數據源可能缺乏多樣性，所有音樂文化在數據集中的代表性不均等。模型在各種音樂流派上的表現可能不同。模型生成的樣本將反映訓練數據中的偏差。對該模型的進一步研究應包括實現文化平衡和公正表示的方法，例如，通過擴展訓練數據使其既多樣化又具包容性。
風險和危害：模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。我們相信提供重現研究和訓練新模型的代碼將有助於將應用擴展到更新和更具代表性的數據上。
使用案例：用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是一個為音樂生成的人工智能研究而開發的模型。因此，在沒有進一步調查和緩解風險的情況下，它不應用於下游應用。

Audio - MAGNeT - 音效生成模型

訓練數據集：audio - magnet模型在以下數據源上進行訓練：AudioSet的一個子集（Gemmeke等人，2017）、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、[免費使用音效](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss遊戲音效、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[派拉蒙電影 - 奧登電影音效](https://www.paramountmotion.com/odeon - sound - effects)。
評估數據集：audio - magnet模型（音效生成）在AudioCaps基準上進行評估。
評估結果：以下是發佈的audio - magnet模型在AudioCaps（由10秒長的樣本組成）上獲得的客觀指標。 | 模型 | Fréchet音頻距離 | KLD | |---|---|---| | facebook/audio - magnet - small | 3.21 | 1.42 | | facebook/audio - magnet - medium | 2.32 | 1.64 |