A

Audio Magnet Medium

facebookによって開発
MAGNeTは非自己回帰Transformerベースのテキストから音楽と音響効果を生成するモデルで、テキスト記述に基づいて高品質な音声サンプルを生成できます。
ダウンロード数 435
リリース時間 : 1/10/2024

モデル概要

MAGNeTはマスク生成型非自己回帰Transformerアーキテクチャを採用し、32kHz EnCodecトークナイザーでトレーニングされ、4つの50Hzサンプリングコードブックを使用しています。このモデルは意味的マーカー条件入力やカスケードモデルを必要とせず、単一の非自己回帰Transformerで全ての4つのコードブックを生成します。

モデル特徴

単一非自己回帰Transformerアーキテクチャ
カスケードモデルや意味的マーカー条件入力を必要とせず、単一のTransformerで全てのコードブックを生成します。
高品質音声生成
テキスト記述に基づいて高品質な音楽と音響効果サンプルを生成できます。
複数コードブックサポート
32kHz EnCodecトークナイザーでトレーニングされ、4つの50Hzサンプリングコードブックを使用しています。

モデル能力

テキストから音楽生成
テキストから音響効果生成
高品質音声サンプル生成

使用事例

AI音楽生成研究
音楽創作支援
テキスト記述に基づいて明るいロックやエネルギッシュなエレクトロニックダンスミュージックを生成します。
高品質な音楽サンプルを生成
機械学習愛好家の探求
生成モデルの能力探求
非自己回帰Transformerの音声生成における応用を探求します。
音声生成におけるモデルの性能を理解
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase