M

Magnet Small 10secs

由facebook開發
MAGNeT是一個文本到音樂和文本到聲音的模型,能夠根據文本描述生成高質量的音頻樣本。
下載量 976
發布時間 : 1/10/2024

模型概述

MAGNeT是一個基於32kHz EnCodec分詞器的掩碼生成非自迴歸Transformer,使用4個以50 Hz採樣的碼本進行訓練。它不需要語義標記條件或模型級聯,使用單一的非自迴歸Transformer生成所有4個碼本。

模型特點

非自迴歸生成
使用單一的非自迴歸Transformer生成所有碼本,無需級聯模型
高質量音頻生成
能夠根據文本描述生成32kHz採樣率的高質量音頻樣本
多樣化風格支持
支持生成多種音樂風格,包括嘻哈、放克浩室、低保真等

模型能力

文本到音樂生成
文本到音效生成
短音頻片段生成(10秒)

使用案例

音樂創作
背景音樂生成
為視頻、播客等內容生成背景音樂
生成10秒長的音樂片段
音樂靈感探索
通過文本提示探索不同風格的音樂創作可能性
生成多樣化的音樂樣本
音效設計
遊戲音效生成
為遊戲場景生成環境音效
生成10秒長的音效片段
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase