M

Magnet Medium 10secs

由facebook開發
MAGNeT是一個文本轉音樂和文本轉聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
下載量 322
發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer,使用4個以50Hz採樣的碼本。它不需要語義標記條件或模型級聯,使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

非自迴歸生成
使用單一的非自迴歸Transformer生成所有碼本,無需模型級聯。
高質量音頻生成
能夠根據文本描述生成高質量的音頻樣本。
多碼本處理
使用4個以50Hz採樣的碼本進行音頻生成。

模型能力

文本轉音樂生成
文本轉聲音生成

使用案例

音樂創作
生成特定風格的音樂
根據文本描述生成特定風格的音樂,如80年代嘻哈風格的放克浩室音樂。
生成10秒的高質量音樂樣本。
生成輕鬆歌曲
根據文本描述生成受低保真、弛放電子和慢節奏影響的輕鬆歌曲。
生成10秒的高質量音樂樣本。
播客製作
生成播客開場音樂
根據文本描述生成播客開場吸引人的節奏。
生成10秒的高質量音樂樣本。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase