A

Audio Magnet Small

facebookによって開発
MAGNeTは、テキスト記述に基づいて高品質な音声サンプルを生成できるテキストto音楽およびテキストtoサウンドのモデルです。32kHz EnCodecトークナイザーを使用したマスク生成非自己回帰型Transformerモデルです。
ダウンロード数 161
リリース時間 : 1/10/2024

モデル概要

MAGNeTは、テキスト記述に基づいて音楽やサウンドエフェクトを生成できる非自己回帰型Transformerベースの音声生成モデルです。意味マーカー条件やモデルカスケードを必要とせず、単一のTransformerですべてのコードブックを生成します。

モデル特徴

非自己回帰生成
単一の非自己回帰型Transformerですべてのコードブックを同時生成し、カスケードモデルが不要
高品質音声生成
32kHzサンプリングレートの高品質な音楽やサウンドエフェクトサンプルを生成可能
簡素化されたプロセス
意味マーカー条件が不要で、生成プロセスを簡素化
多様な応用
音楽とサウンドエフェクトの両生成タスクをサポートし、幅広い応用シーンを持つ

モデル能力

テキストto音楽生成
テキストtoサウンドエフェクト生成
高品質音声合成
マルチスタイル音楽創作

使用事例

音楽創作
音楽生成
テキスト記述に基づいて様々なスタイルの音楽フラグメントを生成
明るいロック、エネルギッシュなエレクトロニックダンスミュージックなどのスタイル音楽を生成可能
サウンドエフェクト設計
サウンドエフェクト生成
テキスト記述に基づいて様々な環境音や特殊効果音を生成
自然環境音、機械音効果などを生成可能
研究応用
生成モデル研究
音声生成モデルの限界と可能性を探求するために使用
音声生成分野の科学的進歩を推進
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase