M

Musicgen Medium

facebookによって開発
MusicGenはテキスト説明またはオーディオプロンプトに基づいて高品質な音楽サンプルを生成するテキストから音楽へのモデルで、15億パラメータの自己回帰型Transformerアーキテクチャを採用しています。
ダウンロード数 1.5M
リリース時間 : 6/8/2023

モデル概要

単段階自己回帰型Transformerモデルで、テキスト説明から直接32kHzサンプリングレートの音楽オーディオを生成し、並列予測と制御可能な音楽生成をサポートします。

モデル特徴

並列コードブック予測
コードブック間の微小遅延により並列予測を実現、1秒のオーディオに必要な自己回帰ステップはわずか50回
意味表現不要
MusicLMなどの手法と異なり、中間の意味表現を必要とせず直接オーディオコードブックを生成
マルチパラメータ版
3億/15億/33億パラメータ版及びメロディ誘導バリアントを提供

モデル能力

テキスト説明に基づく音楽生成
スタイル混合のサポート(例:'80年代ヒップホップ+ファンクハウス')
32kHz高品質オーディオ生成
メロディ誘導生成のサポート(メロディ版モデルが必要)

使用事例

音楽制作
BGM生成
ポッドキャスト/動画用にカスタマイズされたオープニング音楽を生成
キャッチーなリズムを持つオーディオ生成例を表示
スタイル実験
異なる年代やスタイルの音楽要素を混合
'80年代ヒップホップ+ファンクハウス'などの混合スタイルの生成に成功
コンテンツ制作
ローファイ作業用音楽
チルアウト電子要素を融合したリラックス曲を生成
集中作業に適したBGMを生成可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase