🚀 MAGNeT - Medium - 1.5B - 30secs
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它基於Transformer架構,為音樂和聲音生成領域帶來了高效且優質的解決方案。
🚀 快速開始
🤗 Transformers使用方法
即將推出...
Audiocraft使用方法
你可以通過原始的 Audiocraft庫 在本地運行MAGNeT:
- 首先安裝
audiocraft
庫
pip install git+https://github.com/facebookresearch/audiocraft.git
- 確保安裝了
ffmpeg
:
apt-get install ffmpeg
- 運行以下Python代碼:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-medium-30secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
MAGNeT是一個基於32kHz EnCodec分詞器(具有4個碼本,採樣率為50 Hz)訓練的掩碼生成非自迴歸Transformer模型。與以往的工作不同,MAGNeT既不需要語義令牌條件,也不需要模型級聯,它使用單個非自迴歸Transformer生成所有4個碼本。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發組織 |
Meta AI的FAIR團隊 |
模型日期 |
2023年11月至2024年1月訓練 |
模型版本 |
版本1 |
模型類型 |
由用於音頻分詞的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成,用於音樂建模。模型有不同大小(300M、1.5B)和兩種變體(用於文本到音樂生成任務的模型和用於文本到音頻生成的模型) |
參考論文 |
Masked Audio Generation using a Single Non-Autoregressive Transformer |
引用詳情 |
@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}} |
許可證 |
代碼遵循MIT許可,模型權重遵循CC - BY - NC 4.0許可 |
反饋渠道 |
有關MAGNeT的問題和評論可通過項目的Github倉庫發送,或提交問題 |
預期用途
- 主要預期用途:MAGNeT主要用於基於AI的音樂生成研究,包括探索和理解生成模型的侷限性以改進科學現狀,以及供機器學習愛好者生成文本引導的音樂以瞭解生成式AI模型的當前能力。
- 主要預期用戶:音頻、機器學習和人工智能領域的研究人員,以及希望更好理解這些模型的愛好者。
- 非預期用例:在未進行進一步風險評估和緩解的情況下,模型不應用於下游應用。模型不得用於故意創建或傳播會給人們帶來敵對或疏離環境的音樂作品,包括生成人們可預見會感到不安、苦惱或冒犯的音樂,或傳播歷史或當前刻板印象的內容。
評估指標
- 模型性能指標:使用以下客觀指標在標準音樂基準上評估模型:
- 基於預訓練音頻分類器(VGGish)提取的特徵計算的Frechet音頻距離
- 基於預訓練音頻分類器(PaSST)提取的標籤分佈的Kullback - Leibler散度
- 基於預訓練CLAP模型提取的音頻嵌入和文本嵌入之間的CLAP分數
此外,還進行了有人類參與者的定性研究,從以下方面評估模型性能:
- 音樂樣本的整體質量
- 與提供的文本輸入的相關性
- 決策閾值:不適用
評估數據集
模型在MusicCaps基準和一個領域內保留評估集上進行評估,評估集與訓練集無藝術家重疊。
訓練數據集
模型在許可數據上進行訓練,數據來源包括:Meta Music Initiative Sound Collection、Shutterstock音樂集和Pond5音樂集。有關訓練集和相應預處理的更多詳細信息,請參閱論文。
評估結果
以下是發佈的模型在MusicCaps上獲得的客觀指標。請注意,對於公開發布的模型,使用了最先進的音樂源分離方法,即開源的Hybrid Transformer for Music Source Separation(HT - Demucs),以僅保留器樂軌道。這解釋了與論文中使用的模型在客觀指標上的差異。
模型 |
Frechet音頻距離 |
KLD |
文本一致性 |
facebook/magnet - small - 10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet - medium - 10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet - small - 30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet - medium - 30secs |
4.63 |
1.20 |
0.28 |
侷限性和偏差
- 數據:用於訓練模型的數據源由音樂專業人員創建,並與權利持有者簽訂了法律協議。模型在16000小時的數據上進行訓練,相信在更大的數據集上擴展模型可以進一步提高性能。
- 緩解措施:使用相應標籤和最先進的音樂源分離方法(即開源的Hybrid Transformer for Music Source Separation(HT - Demucs))從數據源中移除了包含人聲的曲目。
- 侷限性:
- 模型無法生成逼真的人聲。
- 模型使用英文描述進行訓練,在其他語言中的表現不佳。
- 模型對所有音樂風格和文化的表現不均。
- 模型有時會生成歌曲結尾,陷入沉默。
- 有時難以確定哪種類型的文本描述能提供最佳生成效果,可能需要進行提示工程以獲得滿意的結果。
- 偏差:數據源可能缺乏多樣性,所有音樂文化在數據集中的代表性不均。模型在各種音樂流派上的表現可能不同,生成的樣本會反映訓練數據中的偏差。該模型的進一步工作應包括實現文化平衡和公正表示的方法,例如擴展訓練數據以使其既多樣化又具包容性。
- 風險和危害:模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。相信提供重現研究和訓練新模型的代碼將有助於將應用擴展到更新和更具代表性的數據。
- 使用案例:用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是為音樂生成的人工智能研究而開發的模型,因此在未進行進一步調查和風險緩解的情況下,不應將其用於下游應用。
Audio - MAGNeT - 音效生成模型
- 訓練數據集:audio - magnet模型在以下數據源上進行訓練:AudioSet的一個子集(Gemmeke等人,2017)、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、[Free To Use Sounds](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss Game Effects、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[Paramount Motion - Odeon Cinematic Sound Effects](https://www.paramountmotion.com/odeon - sound - effects)。
- 評估數據集:audio - magnet模型(音效生成)在AudioCaps基準上進行評估。
- 評估結果:以下是發佈的audio - magnet模型在AudioCaps(由10秒長的樣本組成)上獲得的客觀指標。
| 模型 | Frechet音頻距離 | KLD |
|------|------|------|
| facebook/audio - magnet - small | 3.21 | 1.42 |
| facebook/audio - magnet - medium | 2.32 | 1.64 |
📄 許可證
代碼遵循MIT許可,模型權重遵循CC - BY - NC 4.0許可。