M

MERT V1 95M

m-a-pによって開発
MERT-v1-330M は MLM パラダイムに基づいてトレーニングされた高度な音楽理解モデルで、330M のパラメータを持ち、24K Hz のオーディオサンプリングレートと 75 Hz の特徴レートをサポートし、さまざまな音楽情報検索タスクに適しています。
ダウンロード数 83.72k
リリース時間 : 3/17/2023

モデル概要

MERT-v1-330M は音楽オーディオ事前学習モデルで、MLM パラダイムを使用してトレーニングされ、より強力なタスク汎化能力と高いオーディオサンプリングレートを備えており、音楽分類や音楽生成などのタスクに適しています。

モデル特徴

高オーディオサンプリングレート
24K Hz のオーディオサンプリングレートをサポートし、より高品質なオーディオ処理能力を提供します。
大規模トレーニングデータ
160K 時間の音楽データを使用してトレーニングされ、モデルはより強力な汎化能力を持っています。
マルチコードブック擬似ラベル
encodec の 8 コードブック擬似ラベルを採用し、品質を向上させ、音楽生成タスクをサポートします。
バッチ内ノイズ混合
バッチ内ノイズ混合の MLM 予測を導入し、モデルの堅牢性を強化します。

モデル能力

音楽分類
音楽情報検索
音楽生成

使用事例

音楽分析
音楽ジャンル分類
音楽の断片をジャンル別に分類します。例えば、ポップ、クラシック、ジャズなど。
複数の下流タスクで前世代のモデルよりも優れたパフォーマンスを示しています。
音楽感情認識
音楽内の感情的特徴を認識します。例えば、喜び、悲しみ、怒りなど。
音楽生成
音楽断片生成
入力されたオーディオ特徴に基づいて新しい音楽断片を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase