audio - magnet - small開源音頻模型 - 免費部署，依文本描述生成高質量音頻樣本

首頁

Audio Magnet Small

由facebook開發

MAGNeT 是一款文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它是一個基於掩碼生成非自迴歸Transformer的模型，使用32kHz EnCodec分詞器。

音頻生成 #非自迴歸音頻生成 #文本引導音樂合成 #32kHz高保真

下載量 161

發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於非自迴歸Transformer的音頻生成模型，能夠根據文本描述生成音樂和音效。它不需要語義標記條件或模型級聯，通過單個Transformer生成所有碼本。

模型特點

非自迴歸生成

通過單個非自迴歸Transformer同時生成所有碼本，無需級聯模型

高質量音頻生成

能夠生成32kHz採樣率的高質量音樂和音效樣本

簡化流程

不需要語義標記條件，簡化了生成流程

多樣化應用

支持音樂和音效兩種生成任務，具有廣泛的應用場景

模型能力

文本到音樂生成

文本到音效生成

高質量音頻合成

多風格音樂創作

使用案例

音樂創作

音樂生成

根據文本描述生成各種風格的音樂片段

可生成歡快的搖滾、充滿活力的電子舞曲等風格音樂

音效設計

音效生成

根據文本描述生成各種環境音效和特殊效果音

可生成自然環境音、機械音效等

研究應用

生成模型研究

用於探索音頻生成模型的侷限性和可能性

推動音頻生成領域的科學進步

🚀 Audio-MAGNeT - Small - 300M

MAGNeT是一個文本到音樂和文本到聲音的模型，能夠根據文本描述生成高質量的音頻樣本。它採用Transformer架構，無需語義令牌調節或模型級聯，就能高效生成音頻。

🚀 快速開始

你可以通過原始的 Audiocraft庫在本地運行MAGNeT：

首先安裝 audiocraft 庫：

pip install git+https://github.com/facebookresearch/audiocraft.git

確保安裝了 ffmpeg：

apt-get install ffmpeg

運行以下Python代碼：

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-small")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度標準化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

✨ 主要特性

基於Transformer架構，無需語義令牌調節或模型級聯，可根據文本描述生成高質量音頻樣本。
有不同大小和變體，適用於文本到音樂和文本到音頻生成任務。

📦 安裝指南

安裝 `audiocraft` 庫

pip install git+https://github.com/facebookresearch/audiocraft.git

安裝 `ffmpeg`

apt-get install ffmpeg

💻 使用示例

基礎用法

from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write

model = MAGNeT.get_pretrained("facebook/audio-magnet-small")

descriptions = ["happy rock", "energetic EDM"]

wav = model.generate(descriptions)  # 生成2個樣本。

for idx, one_wav in enumerate(wav):
    # 將以 -14 db LUFS 的響度標準化保存為 {idx}.wav。
    audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")

📚 詳細文檔

模型詳情

屬性	詳情
開發組織	Meta AI的FAIR團隊
模型日期	2023年11月至2024年1月訓練
模型版本	版本1
模型類型	由用於音頻標記化的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成，有300M、1.5B等不同大小，以及文本到音樂生成和文本到音頻生成兩種變體
參考論文	Masked Audio Generation using a Single Non-Autoregressive Transformer
引用詳情	`@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}}`
許可證	代碼採用MIT許可，模型權重採用CC - BY - NC 4.0許可
反饋渠道	可通過項目的 Github倉庫發送問題或評論，或提交issue

預期用途

主要預期用途

基於AI的音樂生成研究，如探索和理解生成模型的侷限性以改進科學現狀。
由文本引導的音樂生成，供機器學習愛好者瞭解生成式AI模型的當前能力。

主要預期用戶

音頻、機器學習和人工智能領域的研究人員，以及希望更好理解這些模型的愛好者。

非預期用例

在未進行進一步風險評估和緩解的情況下，不得用於下游應用。不得用於故意創建或傳播會給人造成敵對或疏離環境的音樂作品。

評估指標

模型性能指標

基於預訓練音頻分類器（VGGish）提取的特徵計算的Frechet音頻距離。
基於預訓練音頻分類器（PaSST）提取的標籤分佈的Kullback - Leibler散度。
基於預訓練CLAP模型提取的音頻嵌入和文本嵌入的CLAP得分。

定性研究

通過人類參與者進行定性研究，從以下方面評估模型性能：

音樂樣本的整體質量。
與提供的文本輸入的相關性。

評估數據集

模型在 MusicCaps基準和一個域內保留評估集上進行評估，評估集與訓練集無藝術家重疊。

訓練數據集

模型在許可數據上進行訓練，數據來源包括 Meta Music Initiative Sound Collection、Shutterstock音樂集和 Pond5音樂集。

評估結果

以下是發佈的模型在MusicCaps上獲得的客觀指標：

模型	Frechet音頻距離	KLD	文本一致性
facebook/magnet-small-10secs	4.22	1.11	0.28
facebook/magnet-medium-10secs	4.61	1.14	0.28
facebook/magnet-small-30secs	4.35	1.17	0.28
facebook/magnet-medium-30secs	4.63	1.20	0.28

音頻MAGNeT - 音效生成模型

訓練數據集

音頻MAGNeT模型在以下數據源上進行訓練：AudioSet的一個子集（Gemmeke等人，2017）、BBC音效、AudioCaps（Kim等人，2019）、Clotho v2（Drossos等人，2020）、VGG - Sound（Chen等人，2020）、FSD50K（Fonseca等人，2021）、Free To Use Sounds、Sonniss Game Effects、WeSoundEffects、Paramount Motion - Odeon Cinematic Sound Effects。

評估數據集

音頻MAGNeT模型（音效生成）在 AudioCaps基準上進行評估。

評估結果

以下是發佈的音頻MAGNeT模型在AudioCaps（由10秒長的樣本組成）上獲得的客觀指標：

模型	Frechet音頻距離	KLD
facebook/audio-magnet-small	3.21	1.42
facebook/audio-magnet-medium	2.32	1.64

侷限性和偏差

數據

模型訓練使用的數據源由音樂專業人士創建，並與權利人簽訂了法律協議。模型在16000小時的數據上進行訓練，擴大數據集規模可能會進一步提高模型性能。

緩解措施

使用相應標籤和最先進的音樂源分離方法（如開源的 Hybrid Transformer for Music Source Separation （HT - Demucs））從數據源中移除包含人聲的曲目。

侷限性

無法生成逼真的人聲。
用英語描述進行訓練，在其他語言中的表現不佳。
對所有音樂風格和文化的表現不一致。
有時會生成歌曲結尾並陷入沉默。
有時難以確定哪種文本描述能產生最佳生成效果，可能需要進行提示工程。

偏差

數據源可能缺乏多樣性，並非所有音樂文化在數據集中都有平等的代表。模型在各種音樂流派上的表現可能不一致，生成的樣本會反映訓練數據中的偏差。

風險和危害

模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。提供代碼以重現研究和訓練新模型有助於將應用擴展到更新和更具代表性的數據。

使用建議

用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是為音樂生成的人工智能研究而開發的模型，在未進行進一步調查和風險緩解的情況下，不得用於下游應用。

引用格式

@misc{ziv2024masked,
      title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, 
      author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
      year={2024},
      eprint={2401.04577},
      archivePrefix={arXiv},
      primaryClass={cs.SD}
}