🚀 MAGNeT - Medium - 1.5B - 10secs
MAGNeT 是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它基於 Transformer 架構,為音樂生成領域帶來了高效且優質的解決方案。
🚀 快速開始
🤗 Transformers 使用方法
即將推出...
Audiocraft 使用方法
你可以通過原始的 Audiocraft 庫 在本地運行 MAGNeT:
- 首先安裝
audiocraft
庫
pip install git+https://github.com/facebookresearch/audiocraft.git
- 確保安裝了
ffmpeg
:
apt-get install ffmpeg
- 運行以下 Python 代碼:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-medium-10secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- 能夠根據文本描述生成高質量的音頻樣本。
- 採用單個非自迴歸 Transformer 生成所有 4 個碼本,無需語義令牌調節或模型級聯。
📚 詳細文檔
模型詳情
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
| 許可證 | 代碼採用 MIT 許可證發佈,模型權重採用 CC - BY - NC 4.0 許可證發佈 |
| 反饋渠道 | 可通過項目的 Github 倉庫 發送問題或評論,或提交 issue |
預期用途
主要預期用途
- 基於人工智能的音樂生成研究,如探索和更好地理解生成模型的侷限性,以進一步推動科學發展。
- 由文本引導的音樂生成,幫助機器學習愛好者瞭解生成式人工智能模型的當前能力。
主要預期用戶
音頻、機器學習和人工智能領域的研究人員,以及希望更好理解這些模型的愛好者。
非預期用例
- 在未進行進一步風險評估和緩解的情況下,不得用於下游應用。
- 不得用於故意創建或傳播會給人造成敵對或疏離環境的音樂作品,包括生成可能會讓人感到不安、痛苦或冒犯的音樂,或傳播歷史或當前刻板印象的內容。
評估指標
模型性能指標
- 使用以下客觀指標在標準音樂基準上評估模型:
- 基於預訓練音頻分類器(VGGish)提取的特徵計算的 Fréchet 音頻距離。
- 基於預訓練音頻分類器(PaSST)提取的標籤分佈的 Kullback - Leibler 散度。
- 基於預訓練 CLAP 模型提取的音頻嵌入和文本嵌入之間的 CLAP 分數。
- 此外,還進行了有人類參與者的定性研究,從以下方面評估模型性能:
- 音樂樣本的整體質量。
- 與提供的文本輸入的文本相關性。
決策閾值
不適用。
評估數據集
模型在 MusicCaps 基準 和一個無藝術家與訓練集重疊的領域內保留評估集上進行了評估。
訓練數據集
模型在以下許可數據源上進行訓練:Meta Music Initiative Sound Collection、Shutterstock 音樂庫 和 Pond5 音樂庫。更多關於訓練集和相應預處理的詳細信息請參考論文。
評估結果
以下是發佈的模型在 MusicCaps 上獲得的客觀指標。注意,對於公開發布的模型,使用了最先進的音樂源分離方法,即開源的 Hybrid Transformer for Music Source Separation (HT - Demucs),以僅保留器樂曲目。這解釋了與論文中使用的模型在客觀指標上的差異。
模型 |
Fréchet 音頻距離 |
KLD |
文本一致性 |
facebook/magnet - small - 10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet - medium - 10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet - small - 30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet - medium - 30secs |
4.63 |
1.20 |
0.28 |
更多信息可在論文 Masked Audio Generation using a Single Non-Autoregressive Transformer 的結果部分找到。
侷限性和偏差
數據
模型訓練使用的數據源由音樂專業人士創建,並與版權持有者簽訂了法律協議。模型在 16K 小時的數據上進行訓練,認為在更大的數據集上擴展模型可以進一步提高性能。
緩解措施
使用相應標籤和最先進的音樂源分離方法(即開源的 Hybrid Transformer for Music Source Separation (HT - Demucs))從數據源中移除了包含人聲的曲目。
侷限性
- 模型無法生成逼真的人聲。
- 模型使用英語描述進行訓練,在其他語言中的表現不佳。
- 模型在所有音樂風格和文化中的表現不均。
- 模型有時會生成歌曲結尾並陷入沉默。
- 有時難以評估哪種類型的文本描述能提供最佳生成效果,可能需要進行提示工程以獲得滿意的結果。
偏差
數據源可能缺乏多樣性,並非所有音樂文化都在數據集中得到平等代表。模型在各種音樂流派中的表現可能不均,生成的樣本會反映訓練數據中的偏差。對該模型的進一步研究應包括實現文化平衡和公正表示的方法,例如擴展訓練數據以使其既多樣化又具包容性。
風險和危害
模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。認為提供重現研究和訓練新模型的代碼將有助於將應用擴展到新的、更具代表性的數據。
使用場景
用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT 是為音樂生成的人工智能研究而開發的模型,因此在未進行進一步調查和風險緩解的情況下,不得用於下游應用。
Audio - MAGNeT - 音效生成模型
訓練數據集
audio - magnet 模型在以下數據源上進行訓練:AudioSet 的一個子集(Gemmeke 等人,2017)、[BBC 音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim 等人,2019)、Clotho v2(Drossos 等人,2020)、VGG - Sound(Chen 等人,2020)、FSD50K(Fonseca 等人,2021)、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。
評估數據集
audio - magnet 模型(音效生成)在 AudioCaps 基準 上進行了評估。
評估結果
以下是發佈的 audio - magnet 模型在 AudioCaps(由 10 秒長的樣本組成)上獲得的客觀指標。
模型 |
Fréchet 音頻距離 |
KLD |
facebook/audio - magnet - small |
3.21 |
1.42 |
facebook/audio - magnet - medium |
2.32 |
1.64 |
模型檢查點
發佈了六個檢查點:
- [small - 10secs](https://huggingface.co/facebook/magnet - small - 10secs)
- [medium - 10secs (本檢查點)](https://huggingface.co/facebook/magnet - medium - 10secs)
- [small - 30secs](https://huggingface.co/facebook/magnet - small - 30secs)
- [medium - 30secs](https://huggingface.co/facebook/magnet - medium - 30secs)
- [audio - small](https://huggingface.co/facebook/audio - magnet - small)
- [audio - medium](https://huggingface.co/facebook/audio - magnet - medium)