wav2vec2-base開源音頻分類模型 - 免費部署精準分類音樂和語音

Wav2vec2 Base Music Speech Both Classification Finetuned Gtzan

由0bi0n3開發

基於wav2vec2架構的音頻分類模型，在GTZAN數據集上微調，用於音樂和語音分類任務

下載量 15

發布時間 : 9/16/2023

模型概述

該模型是基於wav2vec2架構的音頻分類模型，專門針對音樂和語音分類任務進行了微調。在GTZAN數據集上取得了85%的準確率。

高準確率

在GTZAN數據集上達到85%的分類準確率

基於wav2vec2架構

利用先進的wav2vec2架構進行音頻特徵提取和分類

音樂/語音分類

專門針對音樂和語音分類任務進行優化

音頻分類

音樂識別

語音識別

音頻內容分析

音樂流媒體分類

自動識別音頻流中的音樂內容

準確率85%

語音內容檢測

在混合音頻中識別語音內容