🚀 MAGNeT - 小型 - 3億參數 - 30秒音頻
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它通過基於Transformer架構的非自迴歸模型,結合先進的音頻編碼技術,為用戶提供了一種高效、靈活的音頻生成解決方案。
🚀 快速開始
你可以通過原始的 Audiocraft庫 在本地運行MAGNeT:
- 首先安裝
audiocraft
庫
pip install git+https://github.com/facebookresearch/audiocraft.git
- 確保已安裝
ffmpeg
:
apt-get install ffmpeg
- 運行以下Python代碼:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- MAGNeT是一個基於Transformer架構的非自迴歸模型,能夠根據文本描述生成高質量的音頻樣本。
- 它採用了先進的音頻編碼技術,能夠生成具有高保真度和多樣性的音頻。
- 該模型不需要語義令牌調節或模型級聯,使用單個非自迴歸Transformer生成所有4個碼本。
📦 安裝指南
安裝Audiocraft庫
pip install git+https://github.com/facebookresearch/audiocraft.git
安裝ffmpeg
apt-get install ffmpeg
💻 使用示例
基礎用法
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/magnet-small-30secs")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發組織 |
Meta AI的FAIR團隊 |
模型日期 |
2023年11月至2024年1月 |
模型版本 |
版本1 |
模型類型 |
MAGNeT由用於音頻標記化的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成,用於音樂建模。模型有不同的大小:3億參數、15億參數;有兩種變體:用於文本到音樂生成任務的模型和用於文本到音頻生成的模型。 |
更多信息的論文或資源 |
使用單個非自迴歸Transformer進行掩碼音頻生成 |
引用詳情 |
@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}} |
許可證 |
代碼以MIT許可證發佈,模型權重以CC - BY - NC 4.0許可證發佈。 |
反饋渠道 |
有關MAGNeT的問題和評論可以通過項目的Github倉庫發送,或通過創建問題來反饋。 |
預期用途
- 主要預期用途:MAGNeT的主要用途是基於人工智能的音樂生成研究,包括:研究工作,如探索和更好地理解生成模型的侷限性,以進一步推動科學發展;由文本引導的音樂生成,供機器學習愛好者瞭解生成式AI模型的當前能力。
- 主要預期用戶:該模型的主要預期用戶是音頻、機器學習和人工智能領域的研究人員,以及希望更好地理解這些模型的愛好者。
- 超出範圍的用例:在沒有進一步的風險評估和緩解措施的情況下,該模型不應用於下游應用。該模型不應被用於故意創建或傳播會給人們造成敵對或疏離環境的音樂作品。這包括生成人們可預見會覺得不安、痛苦或冒犯的音樂;或傳播歷史或當前刻板印象的內容。
指標
- 模型性能指標:我們使用以下客觀指標在標準音樂基準上評估模型:基於預訓練音頻分類器(VGGish)提取的特徵計算的Fréchet音頻距離;基於預訓練音頻分類器(PaSST)提取的標籤分佈計算的Kullback - Leibler散度;基於預訓練CLAP模型提取的音頻嵌入和文本嵌入之間的CLAP分數。此外,我們還進行了有人類參與者的定性研究,從以下方面評估模型的性能:音樂樣本的整體質量;與提供的文本輸入的文本相關性。更多關於性能指標和人類研究的詳細信息可以在論文中找到。
- 決策閾值:不適用。
評估數據集
該模型在MusicCaps基準和一個領域內保留的評估集上進行了評估,評估集與訓練集沒有藝術家重疊。
訓練數據集
該模型在使用以下來源的許可數據上進行訓練:Meta音樂倡議聲音集、Shutterstock音樂集和Pond5音樂集。有關訓練集和相應預處理的更多詳細信息,請參閱論文。
評估結果
以下是發佈的模型在MusicCaps上獲得的客觀指標。請注意,對於公開發布的模型,我們使用了最先進的音樂源分離方法,即開源的用於音樂源分離的混合Transformer(HT - Demucs),以僅保留器樂曲目。這解釋了與論文中使用的模型在客觀指標上的差異。
模型 |
Fréchet音頻距離 |
KLD |
文本一致性 |
facebook/magnet - small - 10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet - medium - 10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet - small - 30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet - medium - 30secs |
4.63 |
1.20 |
0.28 |
侷限性和偏差
- 數據:用於訓練模型的數據源由音樂專業人士創建,並與權利持有者簽訂了法律協議。模型在16000小時的數據上進行訓練,我們認為在更大的數據集上擴展模型可以進一步提高模型的性能。
- 緩解措施:使用相應的標籤和最先進的音樂源分離方法,即開源的用於音樂源分離的混合Transformer(HT - Demucs),從數據源中移除了包含人聲的曲目。
- 侷限性:模型無法生成逼真的人聲;模型使用英文描述進行訓練,在其他語言中的表現不佳;模型並非對所有音樂風格和文化都有同樣好的表現;模型有時會生成歌曲結尾,陷入沉默;有時很難評估哪種類型的文本描述能提供最佳的生成效果,可能需要進行提示工程以獲得滿意的結果。
- 偏差:數據源可能缺乏多樣性,所有音樂文化在數據集中的代表性不均等。模型在各種音樂流派上的表現可能不同。模型生成的樣本將反映訓練數據中的偏差。對該模型的進一步研究應包括實現文化平衡和公正表示的方法,例如,通過擴展訓練數據使其既多樣化又具包容性。
- 風險和危害:模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。我們相信提供重現研究和訓練新模型的代碼將有助於將應用擴展到更新和更具代表性的數據上。
- 使用案例:用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是一個為音樂生成的人工智能研究而開發的模型。因此,在沒有進一步調查和緩解風險的情況下,它不應用於下游應用。
Audio - MAGNeT - 音效生成模型
- 訓練數據集:audio - magnet模型在以下數據源上進行訓練:AudioSet的一個子集(Gemmeke等人,2017)、[BBC音效](https://sound - effects.bbcrewind.co.uk/)、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、[免費使用音效](https://www.freetousesounds.com/all - in - one - bundle/)、Sonniss遊戲音效、[WeSoundEffects](https://wesoundeffects.com/we - sound - effects - bundle - 2020/)、[派拉蒙電影 - 奧登電影音效](https://www.paramountmotion.com/odeon - sound - effects)。
- 評估數據集:audio - magnet模型(音效生成)在AudioCaps基準上進行評估。
- 評估結果:以下是發佈的audio - magnet模型在AudioCaps(由10秒長的樣本組成)上獲得的客觀指標。
| 模型 | Fréchet音頻距離 | KLD |
|---|---|---|
| facebook/audio - magnet - small | 3.21 | 1.42 |
| facebook/audio - magnet - medium | 2.32 | 1.64 |
⚠️ 重要提示
在沒有進一步的風險評估和緩解措施的情況下,該模型不應用於下游應用。該模型不應被用於故意創建或傳播會給人們造成敵對或疏離環境的音樂作品。
💡 使用建議
由於模型使用英文描述進行訓練,在使用其他語言時可能表現不佳。若要獲得滿意的結果,可能需要進行提示工程。