🚀 Audio-MAGNeT - Medium - 1.5B
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它可以解決文本到音頻生成的問題,為音樂和聲音生成領域的研究和應用提供了強大的工具。
🚀 快速開始
你可以通過原始的 Audiocraft庫 在本地運行MAGNeT:
- 首先安裝
audiocraft
庫
pip install git+https://github.com/facebookresearch/audiocraft.git
- 確保安裝了
ffmpeg
:
apt-get install ffmpeg
- 運行以下Python代碼:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- MAGNeT是一個基於Transformer架構的非自迴歸模型,能夠直接生成音頻樣本,無需語義令牌條件或模型級聯。
- 它使用單個非自迴歸Transformer生成所有4個碼本,提高了生成效率。
- 模型有不同的大小(300M、1.5B)和兩種變體(文本到音樂生成和文本到音頻生成),可以滿足不同的應用需求。
📦 安裝指南
安裝Audiocraft庫
pip install git+https://github.com/facebookresearch/audiocraft.git
安裝FFmpeg
apt-get install ffmpeg
💻 使用示例
基礎用法
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-medium")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
📚 詳細文檔
模型詳情
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
| 許可證 | 代碼遵循MIT許可,模型權重遵循CC - BY - NC 4.0許可 |
| 問題反饋途徑 | 通過項目的 Github倉庫 或提交問題 |
預期用途
- 主要預期用途:基於AI的音樂生成研究,包括探索和理解生成模型的侷限性以改進科學現狀,以及讓機器學習愛好者通過文本引導生成音樂來了解生成式AI模型的當前能力。
- 主要預期用戶:音頻、機器學習和人工智能領域的研究人員以及希望更好理解這些模型的業餘愛好者。
- 超出範圍的用例:在未進行進一步風險評估和緩解的情況下,不應將模型用於下游應用;不應故意使用模型創建或傳播會給人造成敵對或疏離環境的音樂作品。
評估指標
- 模型性能指標:
- 使用預訓練音頻分類器(VGGish)提取的特徵計算Frechet音頻距離。
- 對預訓練音頻分類器(PaSST)提取的標籤分佈計算Kullback - Leibler散度。
- 計算預訓練CLAP模型提取的音頻嵌入和文本嵌入之間的CLAP分數。
- 此外,還進行了人類參與者的定性研究,從音樂樣本的整體質量和與輸入文本的相關性兩個方面評估模型性能。
- 決策閾值:不適用。
評估數據集
在 MusicCaps基準 和一個領域內保留評估集上進行評估,評估集與訓練集無藝術家重疊。
訓練數據集
使用以下來源的許可數據進行訓練:Meta Music Initiative Sound Collection、Shutterstock音樂集 和 Pond5音樂集。
評估結果
以下是發佈的模型在MusicCaps上獲得的客觀指標:
模型 |
Frechet音頻距離 |
KLD |
文本一致性 |
facebook/magnet-small-10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet-medium-10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet-small-30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet-medium-30secs |
4.63 |
1.20 |
0.28 |
侷限性和偏差
- 數據方面:訓練模型使用的數據源由音樂專業人士創建,並與權利持有者簽訂了法律協議。模型在16K小時的數據上進行訓練,認為在更大的數據集上擴展模型可以進一步提高性能。
- 緩解措施:使用相應標籤和最先進的音樂源分離方法(開源的 Hybrid Transformer for Music Source Separation(HT - Demucs))從數據源中移除包含人聲的曲目。
- 侷限性:
- 模型無法生成逼真的人聲。
- 模型使用英文描述進行訓練,在其他語言中的表現不佳。
- 模型在所有音樂風格和文化中的表現不均。
- 模型有時會生成歌曲結尾並陷入沉默。
- 有時難以確定哪種文本描述能提供最佳生成效果,可能需要進行提示工程以獲得滿意結果。
- 偏差:數據源可能缺乏多樣性,並非所有音樂文化在數據集中都得到平等代表。模型在各種音樂流派上的表現可能不均,生成的樣本會反映訓練數據中的偏差。未來應採用方法實現文化的平衡和公正代表,例如擴展訓練數據使其多樣化和包容。
- 風險和危害:模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。提供代碼以重現研究和訓練新模型有助於將應用擴展到更新和更具代表性的數據。
- 使用案例:用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是為音樂生成的人工智能研究而開發的模型,在未進行進一步調查和風險緩解的情況下,不應將其用於下游應用。
Audio - MAGNeT - 音效生成模型
訓練數據集
audio - magnet模型在以下數據源上進行訓練:AudioSet的一個子集(Gemmeke等人,2017)、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。
評估數據集
在 AudioCaps基準 上進行評估。
評估結果
以下是發佈的audio - magnet模型在AudioCaps上獲得的客觀指標(樣本時長為10秒):
模型 |
Frechet音頻距離 |
KLD |
facebook/audio - magnet - small |
3.21 |
1.42 |
facebook/audio - magnet - medium |
2.32 |
1.64 |
📄 許可證
代碼遵循MIT許可,模型權重遵循CC - BY - NC 4.0許可。