🚀 Audio-MAGNeT - Small - 300M
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。它採用Transformer架構,無需語義令牌調節或模型級聯,就能高效生成音頻。
🚀 快速開始
你可以通過原始的 Audiocraft庫 在本地運行MAGNeT:
- 首先安裝
audiocraft
庫:
pip install git+https://github.com/facebookresearch/audiocraft.git
- 確保安裝了
ffmpeg
:
apt-get install ffmpeg
- 運行以下Python代碼:
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-small")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
✨ 主要特性
- 基於Transformer架構,無需語義令牌調節或模型級聯,可根據文本描述生成高質量音頻樣本。
- 有不同大小和變體,適用於文本到音樂和文本到音頻生成任務。
📦 安裝指南
安裝 audiocraft
庫
pip install git+https://github.com/facebookresearch/audiocraft.git
安裝 ffmpeg
apt-get install ffmpeg
💻 使用示例
基礎用法
from audiocraft.models import MAGNeT
from audiocraft.data.audio import audio_write
model = MAGNeT.get_pretrained("facebook/audio-magnet-small")
descriptions = ["happy rock", "energetic EDM"]
wav = model.generate(descriptions)
for idx, one_wav in enumerate(wav):
audio_write(f'{idx}', one_wav.cpu(), model.sample_rate, strategy="loudness")
📚 詳細文檔
模型詳情
屬性 |
詳情 |
開發組織 |
Meta AI的FAIR團隊 |
模型日期 |
2023年11月至2024年1月訓練 |
模型版本 |
版本1 |
模型類型 |
由用於音頻標記化的EnCodec模型和基於Transformer架構的非自迴歸語言模型組成,有300M、1.5B等不同大小,以及文本到音樂生成和文本到音頻生成兩種變體 |
參考論文 |
Masked Audio Generation using a Single Non-Autoregressive Transformer |
引用詳情 |
@misc{ziv2024masked, title={Masked Audio Generation using a Single Non-Autoregressive Transformer}, author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi}, year={2024}, eprint={2401.04577}, archivePrefix={arXiv}, primaryClass={cs.SD}} |
許可證 |
代碼採用MIT許可,模型權重採用CC - BY - NC 4.0許可 |
反饋渠道 |
可通過項目的 Github倉庫 發送問題或評論,或提交issue |
預期用途
主要預期用途
- 基於AI的音樂生成研究,如探索和理解生成模型的侷限性以改進科學現狀。
- 由文本引導的音樂生成,供機器學習愛好者瞭解生成式AI模型的當前能力。
主要預期用戶
音頻、機器學習和人工智能領域的研究人員,以及希望更好理解這些模型的愛好者。
非預期用例
在未進行進一步風險評估和緩解的情況下,不得用於下游應用。不得用於故意創建或傳播會給人造成敵對或疏離環境的音樂作品。
評估指標
模型性能指標
- 基於預訓練音頻分類器(VGGish)提取的特徵計算的Frechet音頻距離。
- 基於預訓練音頻分類器(PaSST)提取的標籤分佈的Kullback - Leibler散度。
- 基於預訓練CLAP模型提取的音頻嵌入和文本嵌入的CLAP得分。
定性研究
通過人類參與者進行定性研究,從以下方面評估模型性能:
評估數據集
模型在 MusicCaps基準 和一個域內保留評估集上進行評估,評估集與訓練集無藝術家重疊。
訓練數據集
模型在許可數據上進行訓練,數據來源包括 Meta Music Initiative Sound Collection、Shutterstock音樂集 和 Pond5音樂集。
評估結果
以下是發佈的模型在MusicCaps上獲得的客觀指標:
模型 |
Frechet音頻距離 |
KLD |
文本一致性 |
facebook/magnet-small-10secs |
4.22 |
1.11 |
0.28 |
facebook/magnet-medium-10secs |
4.61 |
1.14 |
0.28 |
facebook/magnet-small-30secs |
4.35 |
1.17 |
0.28 |
facebook/magnet-medium-30secs |
4.63 |
1.20 |
0.28 |
音頻MAGNeT - 音效生成模型
訓練數據集
音頻MAGNeT模型在以下數據源上進行訓練:AudioSet的一個子集(Gemmeke等人,2017)、BBC音效、AudioCaps(Kim等人,2019)、Clotho v2(Drossos等人,2020)、VGG - Sound(Chen等人,2020)、FSD50K(Fonseca等人,2021)、Free To Use Sounds、Sonniss Game Effects、WeSoundEffects、Paramount Motion - Odeon Cinematic Sound Effects。
評估數據集
音頻MAGNeT模型(音效生成)在 AudioCaps基準 上進行評估。
評估結果
以下是發佈的音頻MAGNeT模型在AudioCaps(由10秒長的樣本組成)上獲得的客觀指標:
模型 |
Frechet音頻距離 |
KLD |
facebook/audio-magnet-small |
3.21 |
1.42 |
facebook/audio-magnet-medium |
2.32 |
1.64 |
侷限性和偏差
數據
模型訓練使用的數據源由音樂專業人士創建,並與權利人簽訂了法律協議。模型在16000小時的數據上進行訓練,擴大數據集規模可能會進一步提高模型性能。
緩解措施
使用相應標籤和最先進的音樂源分離方法(如開源的 Hybrid Transformer for Music Source Separation (HT - Demucs))從數據源中移除包含人聲的曲目。
侷限性
- 無法生成逼真的人聲。
- 用英語描述進行訓練,在其他語言中的表現不佳。
- 對所有音樂風格和文化的表現不一致。
- 有時會生成歌曲結尾並陷入沉默。
- 有時難以確定哪種文本描述能產生最佳生成效果,可能需要進行提示工程。
偏差
數據源可能缺乏多樣性,並非所有音樂文化在數據集中都有平等的代表。模型在各種音樂流派上的表現可能不一致,生成的樣本會反映訓練數據中的偏差。
風險和危害
模型的偏差和侷限性可能導致生成被認為有偏差、不適當或冒犯性的樣本。提供代碼以重現研究和訓練新模型有助於將應用擴展到更新和更具代表性的數據。
使用建議
用戶必須瞭解模型的偏差、侷限性和風險。MAGNeT是為音樂生成的人工智能研究而開發的模型,在未進行進一步調查和風險緩解的情況下,不得用於下游應用。
引用格式
@misc{ziv2024masked,
title={Masked Audio Generation using a Single Non-Autoregressive Transformer},
author={Alon Ziv and Itai Gat and Gael Le Lan and Tal Remez and Felix Kreuk and Alexandre Défossez and Jade Copet and Gabriel Synnaeve and Yossi Adi},
year={2024},
eprint={2401.04577},
archivePrefix={arXiv},
primaryClass={cs.SD}
}
許可證
代碼採用MIT許可,模型權重採用CC - BY - NC 4.0許可。
反饋渠道
可通過項目的 Github倉庫 發送問題或評論,或提交issue。