M

Musicgen Medium

由facebook開發
MusicGen是一款基於文本描述或音頻提示生成高質量音樂樣本的文本轉音樂模型,採用15億參數的自迴歸Transformer架構。
下載量 1.5M
發布時間 : 6/8/2023

模型概述

單階段自迴歸Transformer模型,通過文本描述直接生成32kHz採樣率的音樂音頻,支持並行預測和可控音樂生成。

模型特點

並行碼本預測
通過碼本間微小延遲實現並行預測,每秒音頻僅需50個自迴歸步驟
無需語義表徵
相比MusicLM等方案,直接生成音頻碼本而無需中間語義表示
多參數版本
提供3億/15億/33億參數版本及旋律引導變體

模型能力

根據文本描述生成音樂
支持風格混合(如'80年代嘻哈+放克浩室')
生成32kHz高質量音頻
支持旋律引導生成(需使用旋律版模型)

使用案例

音樂創作
背景音樂生成
為播客/視頻生成定製化開場音樂
示例顯示可生成具有抓耳節奏的音頻
風格實驗
混合不同年代和風格的音樂元素
成功生成'80年代嘻哈+放克浩室'等混合風格
內容製作
低保真工作音樂
生成融合弛放電子元素的舒緩曲目
可生成適合專注工作的背景音樂
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase