M

MERT V1 95M

由m-a-p開發
MERT-v1-330M 是一個基於 MLM 範式訓練的高級音樂理解模型,具有 330M 參數,支持 24K Hz 音頻採樣率和 75 Hz 特徵率,適用於多種音樂信息檢索任務。
下載量 83.72k
發布時間 : 3/17/2023

模型概述

MERT-v1-330M 是一個音樂音頻預訓練模型,採用 MLM 範式訓練,具有更強的任務泛化能力和更高的音頻採樣率,適用於音樂分類、音樂生成等任務。

模型特點

高音頻採樣率
支持 24K Hz 音頻採樣率,提供更高質量的音頻處理能力。
大規模訓練數據
使用 160K 小時的音樂數據進行訓練,模型具有更強的泛化能力。
多碼本偽標籤
採用 encodec 的 8 碼本偽標籤,提升質量並支持音樂生成任務。
批內噪聲混合
引入批內噪聲混合的 MLM 預測,增強模型的魯棒性。

模型能力

音樂分類
音樂信息檢索
音樂生成

使用案例

音樂分析
音樂風格分類
對音樂片段進行風格分類,如流行、古典、爵士等。
在多個下游任務中表現優於前代模型。
音樂情感識別
識別音樂中的情感特徵,如快樂、悲傷、憤怒等。
音樂生成
音樂片段生成
基於輸入的音頻特徵生成新的音樂片段。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase