wav2vec2-base音樂與語音分類模型 - 開源助力精準區分音樂和語音

首頁

Wav2vec2 Base Music Speech Both Classification

由FerhatDk開發

基於facebook/wav2vec2-base微調的音頻分類模型，用於區分音樂和語音

音頻分類

Transformers

開源協議:Apache-2.0 #音頻分類 #高準確率 #音樂語音識別

下載量 20

發布時間 : 7/10/2023

模型概述

該模型是基於wav2vec2-base架構微調的音頻分類器，專門用於區分音樂和語音兩類音頻內容。在評估集上達到了98.47%的準確率。

模型特點

高準確率

在評估集上達到98.47%的分類準確率

基於wav2vec2架構

利用wav2vec2-base預訓練模型進行微調，具有良好的音頻特徵提取能力

輕量級訓練

僅需8個訓練輪次即可達到高性能

模型能力

音頻分類

音樂識別

語音識別

使用案例

音頻內容分析

音樂/語音自動分類

自動識別音頻內容是音樂還是語音

準確率98.47%

媒體管理

音頻庫自動分類

為音頻庫中的內容自動添加音樂/語音標籤

訓練損失	輪數	步數	驗證損失	準確率
0.9458	1.0	66	0.8468	0.7405
0.3785	2.0	132	0.2951	0.9771
0.1762	3.0	198	0.2639	0.9313
0.134	4.0	264	0.1084	0.9771
0.0782	5.0	330	0.0877	0.9771
0.0568	6.0	396	0.0912	0.9771
0.0122	7.0	462	0.4056	0.9198
0.059	8.0	528	0.0586	0.9847

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Base Music Speech Both Classification

模型概述

模型特點

模型能力

使用案例

🚀 wav2vec2-base音樂與語音分類模型

🚀 快速開始

📄 許可證

🔧 技術細節

訓練超參數

訓練結果

框架版本