wav2vec2-base-960h-asv19-deepfake開源音頻模型，精準檢測深度偽造與音頻欺騙

首頁

Wav2vec2 Base 960h Asv19 Deepfake

由abhishtagatya開發

基於facebook/wav2vec2-base-960h微調的音頻分類模型，專注於深度偽造和音頻欺騙檢測。

音頻分類

Transformers

開源協議:Apache-2.0 #音頻深度偽造檢測 #高精度聲紋識別 #ASVspoof2019優化

下載量 25

發布時間 : 3/12/2024

模型概述

該模型用於檢測音頻中的深度偽造和欺騙行為，在評估集上表現出高準確率和低錯誤率。

模型特點

高準確率

在評估集上達到98.45%的準確率

低錯誤率

錯誤接受率(Far)0.9%，錯誤拒絕率(Frr)1.62%，等錯誤率(Eer)1.26%

基於成熟架構

基於經過驗證的wav2vec2-base-960h架構微調

模型能力

音頻分類

深度偽造檢測

音頻欺騙檢測

使用案例

安全驗證

語音身份驗證

檢測語音身份驗證系統中的偽造音頻

可有效識別98.45%的偽造音頻

內容審核

音頻內容審核

識別經過篡改或偽造的音頻內容

🚀 wav2vec2-base-960h-asv19-deepfake

該模型是基於facebook/wav2vec2-base-960h在未知數據集上微調得到的版本。它在評估集上取得了以下結果：

損失：0.0962
準確率：0.9845
誤識率（Far）：0.0090
拒識率（Frr）：0.0162
等錯率（Eer）：0.0126

🚀 快速開始

此模型可直接用於音頻分類、深度偽造檢測等相關任務，基於微調後的參數，能在評估集上取得較好的效果。

📚 詳細文檔

模型描述

該模型是對facebook/wav2vec2-base-960h的微調版本，但關於其更詳細的信息，如微調的具體方式、數據集的特點等，暫未提供。

預期用途與限制

目前關於該模型的預期用途和限制的詳細信息暫未提供。

訓練和評估數據

目前關於訓練和評估數據的詳細信息暫未提供。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率（learning_rate）：1e-06
訓練批次大小（train_batch_size）：2
評估批次大小（eval_batch_size）：2
隨機種子（seed）：42
梯度累積步數（gradient_accumulation_steps）：2
總訓練批次大小（total_train_batch_size）：4
優化器（optimizer）：Adam，其中betas=(0.9,0.999)，epsilon=1e-08
學習率調度器類型（lr_scheduler_type）：線性
訓練輪數（num_epochs）：4.0

訓練結果

訓練損失	輪數	步數	驗證損失	準確率	誤識率（Far）	拒識率（Frr）	等錯率（Eer）
0.3383	0.79	5000	0.2361	0.8974	1.0	0.0	0.5
0.0829	1.58	10000	0.1134	0.9739	0.0122	0.0277	0.0199
0.0441	2.36	15000	0.0922	0.9841	0.0118	0.0163	0.0140
0.0484	3.15	20000	0.1215	0.9798	0.0086	0.0215	0.0151
0.0335	3.94	25000	0.0962	0.9845	0.0090	0.0162	0.0126

框架版本

Transformers 4.38.0.dev0
Pytorch 2.1.2+cu121
Datasets 2.16.2.dev0
Tokenizers 0.15.2

📄 許可證

本模型採用Apache-2.0許可證。

屬性	詳情
模型類型	音頻分類模型
基礎模型	facebook/wav2vec2-base-960h
標籤	音頻分類、深度偽造、音頻欺騙、由訓練器生成
評估指標	準確率