M

Musicgen Stereo Large

由facebook開發
MusicGen是一款由Meta AI開發的文本生成音樂模型,支持立體聲生成,能夠根據文本描述或音頻提示生成高質量音樂樣本。
下載量 382
發布時間 : 10/23/2023

模型概述

MusicGen採用單階段自迴歸Transformer架構,基於32kHz採樣的EnCodec分詞器訓練而成,支持立體聲效果生成,無需自監督語義表徵即可一次性生成全部碼本。

模型特點

立體聲支持
通過兩路token流和延遲模式交錯處理實現立體聲效果,增強空間感和方向性。
高效生成
採用並行預測技術,每秒音頻僅需50次自迴歸步驟,顯著提升生成效率。
旋律引導
支持通過文本描述或現有旋律提示生成音樂,增強創作可控性。
多規模模型
提供300M/1.5B/3.3B三種參數規模,滿足不同計算資源需求。

模型能力

文本生成音樂
旋律引導生成
立體聲生成
高質量音樂樣本生成

使用案例

音樂創作
背景音樂生成
根據場景描述自動生成匹配的背景音樂
生成32kHz採樣率的立體聲音頻
旋律擴展
基於現有旋律片段生成完整編曲
保持原始旋律特徵的多樣化變體
學術研究
生成模型研究
探索音頻生成模型的侷限性和改進方向
提供可量化的客觀評估指標
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase