M

Magnet Medium 30secs

由facebook開發
MAGNeT是一個能夠根據文本描述生成高質量音頻樣本的文本到音樂和文本到聲音模型。
下載量 409
發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer,使用4個以50Hz採樣的碼本進行訓練。它不需要語義標記條件或模型級聯,使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

非自迴歸生成
使用單一的非自迴歸Transformer同時生成所有碼本,無需級聯模型
高質量音頻生成
能夠根據文本描述生成高質量的音樂和聲音樣本
多樣風格支持
支持生成多種音樂風格,如嘻哈、電子舞曲等

模型能力

文本到音樂生成
文本到聲音生成
30秒音頻生成

使用案例

音樂創作
風格化音樂生成
根據文本描述生成特定風格的音樂,如80年代嘻哈風格
生成符合描述的高質量音樂片段
背景音樂製作
為播客、視頻等內容生成定製背景音樂
生成匹配內容氛圍的音樂
研究應用
生成模型研究
用於探索和理解生成模型的侷限性
推動音頻生成領域的科學發展
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase