magnet-medium-10secs開源模型 - 免費根據文本描述生成高質量音樂及聲音

Home

Magnet Medium 10secs

Developed by facebook

MAGNeT是一個文本轉音樂和文本轉聲音的模型，能夠根據文本描述生成高質量的音頻樣本。

音頻生成 #非自迴歸音樂生成 #文本引導音頻合成 #多碼本掩碼建模

Downloads 322

Release Time : 1/10/2024

Model Overview

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer，使用4個以50Hz採樣的碼本。它不需要語義標記條件或模型級聯，使用單一的非自迴歸Transformer生成所有4個碼本。

Model Features

非自迴歸生成

使用單一的非自迴歸Transformer生成所有碼本，無需模型級聯。

高質量音頻生成

能夠根據文本描述生成高質量的音頻樣本。

多碼本處理

使用4個以50Hz採樣的碼本進行音頻生成。

Model Capabilities

文本轉音樂生成

文本轉聲音生成

Use Cases

音樂創作

生成特定風格的音樂

根據文本描述生成特定風格的音樂，如80年代嘻哈風格的放克浩室音樂。

生成10秒的高質量音樂樣本。

生成輕鬆歌曲

根據文本描述生成受低保真、弛放電子和慢節奏影響的輕鬆歌曲。

生成10秒的高質量音樂樣本。

播客製作

生成播客開場音樂

根據文本描述生成播客開場吸引人的節奏。

生成10秒的高質量音樂樣本。

🚀 MAGNeT - Medium - 1.5B - 10secs

MAGNeT 是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它基於 Transformer 架構，為音樂生成領域帶來了高效且優質的解決方案。

🚀 快速開始

🤗 Transformers 使用方法

即將推出...

Audiocraft 使用方法

你可以通過原始的 Audiocraft 庫在本地運行 MAGNeT：

首先安裝 audiocraft 庫

pip install git+https://github.com/facebookresearch/audiocraft.git

確保安裝了 ffmpeg：

apt-get install ffmpeg

運行以下 Python 代碼：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/magnet-medium-10secs")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成 2 個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度歸一化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

能夠根據文本描述生成高質量的音頻樣本。
採用單個非自迴歸 Transformer 生成所有 4 個碼本，無需語義令牌調節或模型級聯。

📚 詳細文檔

模型詳情

屬性	詳情
開發組織	Meta AI 的 FAIR 團隊
模型日期	2023 年 11 月至 2024 年 1 月訓練
模型版本	版本 1
模型類型	由用於音頻標記化的 EnCodec 模型和基於 Transformer 架構的非自迴歸語言模型組成，有 300M、1.5B 等不同大小，以及文本到音樂生成和文本到音頻生成兩種變體
參考論文	Masked Audio Generation using a Single Non-Autoregressive Transformer
引用詳情

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}

預期用途

主要預期用途

基於人工智能的音樂生成研究，如探索和更好地理解生成模型的侷限性，以進一步推動科學發展。
由文本引導的音樂生成，幫助機器學習愛好者瞭解生成式人工智能模型的當前能力。

主要預期用戶

音頻、機器學習和人工智能領域的研究人員，以及希望更好理解這些模型的愛好者。

非預期用例

在未進行進一步風險評估和緩解的情況下，不得用於下游應用。
不得用於故意創建或傳播會給人造成敵對或疏離環境的音樂作品，包括生成可能會讓人感到不安、痛苦或冒犯的音樂，或傳播歷史或當前刻板印象的內容。

評估指標

模型性能指標

使用以下客觀指標在標準音樂基準上評估模型：
- 基於預訓練音頻分類器（VGGish）提取的特徵計算的 Fréchet 音頻距離。
- 基於預訓練音頻分類器（PaSST）提取的標籤分佈的 Kullback - Leibler 散度。
- 基於預訓練 CLAP 模型提取的音頻嵌入和文本嵌入之間的 CLAP 分數。
此外，還進行了有人類參與者的定性研究，從以下方面評估模型性能：
- 音樂樣本的整體質量。
- 與提供的文本輸入的文本相關性。

決策閾值

不適用。

評估數據集

模型在 MusicCaps 基準和一個無藝術家與訓練集重疊的領域內保留評估集上進行了評估。

訓練數據集

模型在以下許可數據源上進行訓練：Meta Music Initiative Sound Collection、Shutterstock 音樂庫和 Pond5 音樂庫。更多關於訓練集和相應預處理的詳細信息請參考論文。

評估結果

以下是發佈的模型在 MusicCaps 上獲得的客觀指標。注意，對於公開發布的模型，使用了最先進的音樂源分離方法，即開源的 Hybrid Transformer for Music Source Separation (HT - Demucs)，以僅保留器樂曲目。這解釋了與論文中使用的模型在客觀指標上的差異。

模型	Fréchet 音頻距離	KLD	文本一致性
facebook/magnet - small - 10secs	4.22	1.11	0.28
facebook/magnet - medium - 10secs	4.61	1.14	0.28
facebook/magnet - small - 30secs	4.35	1.17	0.28
facebook/magnet - medium - 30secs	4.63	1.20	0.28

更多信息可在論文 Masked Audio Generation using a Single Non-Autoregressive Transformer 的結果部分找到。

侷限性和偏差

數據

模型訓練使用的數據源由音樂專業人士創建，並與版權持有者簽訂了法律協議。模型在 16K 小時的數據上進行訓練，認為在更大的數據集上擴展模型可以進一步提高性能。

緩解措施

使用相應標籤和最先進的音樂源分離方法（即開源的 Hybrid Transformer for Music Source Separation (HT - Demucs)）從數據源中移除了包含人聲的曲目。

侷限性

模型無法生成逼真的人聲。
模型使用英語描述進行訓練，在其他語言中的表現不佳。
模型在所有音樂風格和文化中的表現不均。
模型有時會生成歌曲結尾並陷入沉默。
有時難以評估哪種類型的文本描述能提供最佳生成效果，可能需要進行提示工程以獲得滿意的結果。

偏差

數據源可能缺乏多樣性，並非所有音樂文化都在數據集中得到平等代表。模型在各種音樂流派中的表現可能不均，生成的樣本會反映訓練數據中的偏差。對該模型的進一步研究應包括實現文化平衡和公正表示的方法，例如擴展訓練數據以使其既多樣化又具包容性。

風險和危害

模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。認為提供重現研究和訓練新模型的代碼將有助於將應用擴展到新的、更具代表性的數據。

使用場景

用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT 是為音樂生成的人工智能研究而開發的模型，因此在未進行進一步調查和風險緩解的情況下，不得用於下游應用。

Audio - MAGNeT - 音效生成模型

訓練數據集

audio - magnet 模型在以下數據源上進行訓練：AudioSet 的一個子集（Gemmeke 等人，2017）、[BBC 音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps（Kim 等人，2019）、Clotho v2（Drossos 等人，2020）、VGG - Sound（Chen 等人，2020）、FSD50K（Fonseca 等人，2021）、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。

評估數據集

audio - magnet 模型（音效生成）在 AudioCaps 基準上進行了評估。

評估結果

以下是發佈的 audio - magnet 模型在 AudioCaps（由 10 秒長的樣本組成）上獲得的客觀指標。

模型	Fréchet 音頻距離	KLD
facebook/audio - magnet - small	3.21	1.42
facebook/audio - magnet - medium	2.32	1.64

模型檢查點

發佈了六個檢查點：

[small - 10secs](https://huggingface.co/facebook/magnet - small - 10secs)
[medium - 10secs (本檢查點)](https://huggingface.co/facebook/magnet - medium - 10secs)
[small - 30secs](https://huggingface.co/facebook/magnet - small - 30secs)
[medium - 30secs](https://huggingface.co/facebook/magnet - medium - 30secs)
[audio - small](https://huggingface.co/facebook/audio - magnet - small)
[audio - medium](https://huggingface.co/facebook/audio - magnet - medium)