M

Magnet Small 30secs

由facebook開發
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
下載量 215
發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer,使用4個以50Hz採樣的碼本。它不需要語義標記條件或模型級聯,使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

單一非自迴歸Transformer
使用單一的非自迴歸Transformer生成所有4個碼本,無需模型級聯。
高質量音頻生成
能夠根據文本描述生成高質量的音頻樣本。
多碼本生成
使用4個以50Hz採樣的碼本進行音頻生成。

模型能力

文本到音樂生成
文本到聲音生成
高質量音頻合成

使用案例

音樂創作
生成特定風格的音樂
根據文本描述生成特定風格的音樂,如80年代嘻哈風格的放克浩室音樂。
生成30秒的高質量音樂樣本。
播客背景音樂
生成適合播客開場的吸引人節奏。
生成30秒的高質量背景音樂。
音效生成
生成特定音效
根據文本描述生成特定音效,如自然環境聲音或機械聲音。
生成30秒的高質量音效樣本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase