M

MERT V1 330M

Developed by m-a-p
MERT-v1-330MはMLMパラダイムに基づいて訓練された高度な音楽理解モデルで、330Mのパラメータ規模を持ち、24K Hzの音声サンプリングレートをサポートし、様々な音楽情報検索タスクに適しています。
Downloads 16.92k
Release Time : 3/17/2023

Model Overview

このモデルはマスク言語モデリング(MLM)事前学習パラダイムを採用し、大規模な音楽データセット(160,000時間)で訓練されており、優れた音楽特徴抽出と理解能力を備え、音楽分類、音楽生成などの下流タスクに適しています。

Model Features

大規模事前学習
160,000時間の音楽データを使用して訓練され、幅広い音楽スタイルとジャンルをカバーしています
高音質処理
24K Hzの高サンプリングレート音声入力をサポートし、より豊富な音楽の詳細を捉えることができます
改良されたMLMパラダイム
EnCodecの8コードブック擬似ラベルとバッチ内ノイズ混合技術を採用し、事前学習効果を向上させています
マルチタスク汎化能力
下流の音楽理解タスクで優れた汎化性能を示しています

Model Capabilities

音楽特徴抽出
音楽スタイル分類
音楽感情認識
音楽生成サポート

Use Cases

音楽推薦システム
音楽スタイル分類
音楽作品のスタイル特徴を自動的に識別・分類
パーソナライズされた音楽推薦システムのフロントエンド処理に使用可能
音楽コンテンツ分析
音楽感情分析
音楽作品が表現する感情特徴を分析
音楽療法、感情認識などのアプリケーションシナリオに適用可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase