M

Magnet Medium 30secs

facebookによって開発
MAGNeTはテキスト記述から高品質なオーディオサンプルを生成できるテキストtoミュージックおよびテキストtoサウンドモデルです。
ダウンロード数 409
リリース時間 : 1/10/2024

モデル概要

MAGNeTは32kHz EnCodecトークナイザーに基づくマスク生成非自己回帰型Transformerで、50Hzでサンプリングされた4つのコードブックを使用してトレーニングされています。意味マーカー条件やモデルカスケードを必要とせず、単一の非自己回帰型Transformerで全ての4つのコードブックを生成します。

モデル特徴

非自己回帰生成
単一の非自己回帰型Transformerを使用して全てのコードブックを同時生成、カスケードモデル不要
高品質オーディオ生成
テキスト記述に基づいて高品質な音楽や音声サンプルを生成可能
多様なスタイル対応
ヒップホップ、エレクトロニックダンスミュージックなど様々な音楽スタイルの生成をサポート

モデル能力

テキストtoミュージック生成
テキストtoサウンド生成
30秒オーディオ生成

使用事例

音楽制作
スタイル化音楽生成
テキスト記述に基づいて特定スタイルの音楽を生成(例:80年代ヒップホップスタイル)
記述に合致する高品質な音楽クリップを生成
BGM制作
ポッドキャストや動画などのコンテンツ向けにカスタマイズされたBGMを生成
コンテンツの雰囲気にマッチした音楽を生成
研究応用
生成モデル研究
生成モデルの限界を探求・理解するために使用
音声生成分野の科学的進展を促進
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase