wav2vec2開源音頻分類模型 - 免費部署精準識別性別與檢測偽造音頻

首頁

Wav2vec2 Large Xlsr Deepfake Audio Classification

由Gustking開發

基於wav2vec2架構的音頻分類模型，針對深度偽造音頻檢測任務進行微調，在性別識別和偽造音頻檢測方面表現優異。

音頻分類

Transformers

開源協議:Apache-2.0 #深度偽造音頻檢測 #高精度聲紋識別 #ASVspoof2019優化

下載量 345

發布時間 : 5/15/2024

模型概述

該模型是基於wav2vec2架構的音頻分類模型，專門針對深度偽造音頻檢測任務進行了微調。主要用於識別音頻中的性別特徵以及檢測偽造音頻，在ASVspoof2019等數據集上表現出色。

模型特點

高精度偽造音頻檢測

在ASVspoof2019評估子集上F1分數達到0.9363，等錯誤率僅為0.0401

優秀性別識別能力

在原始評估數據上F1分數達到0.95，損失值僅為0.4056

基於wav2vec2架構

採用強大的wav2vec2-large-xlsr-53架構，具備優秀的音頻特徵提取能力

模型能力

音頻分類

性別識別

深度偽造音頻檢測

使用案例

安全檢測

偽造音頻識別

用於檢測語音合成或語音轉換等偽造音頻

在ASVspoof2019數據集上準確率達92.86%

語音分析

說話人性別識別

識別音頻中的說話人性別特徵

F1分數達到0.95

指標	數值
F1	0.95
Loss	0.4056

指標	數值
Accuracy	0.9286
Precision	0.9999
Recall	0.9205
F1-Score	0.9363
Equal Error Rate (EER)	0.0401

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Wav2vec2 Large Xlsr Deepfake Audio Classification

模型概述

模型特點

模型能力

使用案例

🚀 深度偽造音頻分類模型

🚀 快速開始

📚 詳細文檔

評估指標

評估數據

ASVspoof2019評估子集

📄 許可證