M

Musicgen Stereo Melody Large

由facebook開發
MusicGen是一款支持立體聲和旋律引導的文本到音樂生成模型,能夠根據文本描述或音頻提示生成高質量音樂樣本。
下載量 61
發布時間 : 10/23/2023

模型概述

MusicGen是一個基於Transformer架構的自迴歸音樂生成模型,支持通過文本描述或旋律引導生成32kHz立體聲音頻。該模型採用EnCodec音頻分詞器,能一次性生成所有碼本,實現高效音樂合成。

模型特點

立體聲支持
通過20萬次迭代微調實現的立體聲生成能力,採用延遲模式處理兩路令牌流
旋律引導
支持根據輸入旋律生成風格匹配的音樂,保持原始旋律特徵
高效生成
採用並行預測機制,每秒音頻僅需50個自迴歸步驟,顯著提升生成速度
多碼本聯合預測
一次性生成所有4個碼本,無需分階段處理

模型能力

文本到音樂生成
旋律引導音樂生成
立體聲音頻合成
多種音樂風格生成

使用案例

創意內容生成
背景音樂創作
為視頻、遊戲等內容生成定製背景音樂
可根據文本描述快速生成匹配場景情緒的音樂
旋律擴展
基於現有旋律片段生成完整編曲
保持原始旋律特徵的同時豐富音樂表現
音樂研究
音樂生成算法研究
用於探索AI音樂生成的前沿技術
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase