M

MERT V1 330M

m-a-pによって開発
MERT-v1-330MはMLMパラダイムに基づいて訓練された高度な音楽理解モデルで、330Mのパラメータ規模を持ち、24K Hzの音声サンプリングレートをサポートし、様々な音楽情報検索タスクに適しています。
ダウンロード数 16.92k
リリース時間 : 3/17/2023

モデル概要

このモデルはマスク言語モデリング(MLM)事前学習パラダイムを採用し、大規模な音楽データセット(160,000時間)で訓練されており、優れた音楽特徴抽出と理解能力を備え、音楽分類、音楽生成などの下流タスクに適しています。

モデル特徴

大規模事前学習
160,000時間の音楽データを使用して訓練され、幅広い音楽スタイルとジャンルをカバーしています
高音質処理
24K Hzの高サンプリングレート音声入力をサポートし、より豊富な音楽の詳細を捉えることができます
改良されたMLMパラダイム
EnCodecの8コードブック擬似ラベルとバッチ内ノイズ混合技術を採用し、事前学習効果を向上させています
マルチタスク汎化能力
下流の音楽理解タスクで優れた汎化性能を示しています

モデル能力

音楽特徴抽出
音楽スタイル分類
音楽感情認識
音楽生成サポート

使用事例

音楽推薦システム
音楽スタイル分類
音楽作品のスタイル特徴を自動的に識別・分類
パーソナライズされた音楽推薦システムのフロントエンド処理に使用可能
音楽コンテンツ分析
音楽感情分析
音楽作品が表現する感情特徴を分析
音楽療法、感情認識などのアプリケーションシナリオに適用可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase