A

Audio Magnet Medium

由facebook開發
MAGNeT是一款基於非自迴歸Transformer的文本生成音樂與音效模型,能夠根據文本描述生成高質量音頻樣本。
下載量 435
發布時間 : 1/10/2024

模型概述

MAGNeT採用掩碼生成式非自迴歸Transformer架構,基於32kHz EnCodec分詞器訓練,使用4個50Hz採樣的碼本。該模型無需語義標記條件輸入或級聯模型,僅通過單一非自迴歸Transformer即可生成全部4個碼本。

模型特點

單一非自迴歸Transformer架構
無需級聯模型或語義標記條件輸入,僅通過單一Transformer生成全部碼本。
高質量音頻生成
能夠根據文本描述生成高質量的音樂和音效樣本。
多碼本支持
基於32kHz EnCodec分詞器訓練,使用4個50Hz採樣的碼本。

模型能力

文本生成音樂
文本生成音效
高質量音頻樣本生成

使用案例

人工智能音樂生成研究
音樂創作輔助
根據文本描述生成歡快的搖滾或充滿能量的電子舞曲。
生成高質量的音樂樣本
機器學習愛好者探索
生成模型能力探索
探索非自迴歸Transformer在音頻生成中的應用。
理解模型在音頻生成中的表現
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase