Deepfake-audio-detection开源模型 - 高效识别合成语音，准确率达99.64%

首页

Deepfake Audio Detection

由 MelodyMachine 开发

基于音频文件夹数据集微调的Deepfake音频检测模型，能够高效识别合成语音，评估准确率达99.64%

音频分类

Transformers

开源协议:Apache-2.0 #高精度音频分类 #深度伪造检测 #语音真实性验证

下载量 107

发布时间 : 5/31/2024

模型简介

该模型专门用于检测Deepfake合成音频，通过分析音频特征区分真实与合成语音，适用于内容安全验证场景

模型特点

高精度检测

在测试集上达到99.64%的准确率和99.67%的F1值，ROC曲线下面积达1.0

低误报率

召回率99.9%，仅6例合成音频被误判为真实语音

高效训练

仅需2个训练轮次即可达到最优性能，支持混合精度训练

模型能力

音频真实性鉴别

Deepfake语音检测

二进制音频分类

使用案例

内容安全

社交媒体内容审核

自动识别平台上的合成语音内容

可减少99.9%的漏检率

司法取证

语音证据验证

鉴别录音证据是否经过AI合成篡改

准确率99.6%的司法级检测

🚀 深度伪造音频检测

本项目的深度伪造音频检测模型，基于特定数据集微调，能精准识别音频是否为深度伪造，在评估集上展现出高准确率、精确率和召回率，为音频真实性验证提供可靠支持。

🚀 快速开始

此模型是 motheecreator/Deepfake-audio-detection 在 audiofolder 数据集上的微调版本。它在评估集上取得了以下结果：

损失值：0.0192
准确率：0.9964
精确率：0.9944
召回率：0.9990
F1值：0.9967
Auc Roc值：1.0000
混淆矩阵：[[4974, 34], [6, 6033]]
分类报告：{'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}}

🔧 技术细节

训练超参数

训练过程中使用了以下超参数：

学习率：3e-05
训练批次大小：16
评估批次大小：16
随机种子：42
梯度累积步数：2
总训练批次大小：32
优化器：Adam（β1=0.9，β2=0.999，ε=1e-08）
学习率调度器类型：余弦
学习率调度器预热比例：0.1
训练轮数：2
混合精度训练：Native AMP

训练结果

训练损失	轮数	步数	验证损失	准确率	精确率	召回率	F1值	Auc Roc值	混淆矩阵	分类报告
0.1006	0.3621	1000	0.1897	0.9651	0.9424	0.9972	0.9690	0.9989	[[4640, 368], [17, 6022]]	{'0': {'precision': 0.9963495812754992, 'recall': 0.9265175718849841, 'f1-score': 0.9601655457837558, 'support': 5008}, '1': {'precision': 0.9424100156494523, 'recall': 0.9971849643980791, 'f1-score': 0.969024056641725, 'support': 6039}, 'accuracy': 0.9651489092061193, 'macro avg': {'precision': 0.9693797984624757, 'recall': 0.9618512681415317, 'f1-score': 0.9645948012127403, 'support': 11047}, 'weighted avg': {'precision': 0.9668627489395077, 'recall': 0.9651489092061193, 'f1-score': 0.9650081770023017, 'support': 11047}}
0.07	0.7241	2000	0.0333	0.9916	0.9914	0.9932	0.9923	0.9997	[[4956, 52], [41, 5998]]	{'0': {'precision': 0.9917950770462277, 'recall': 0.9896166134185304, 'f1-score': 0.9907046476761618, 'support': 5008}, '1': {'precision': 0.991404958677686, 'recall': 0.993210796489485, 'f1-score': 0.9923070560013236, 'support': 6039}, 'accuracy': 0.9915814248212185, 'macro avg': {'precision': 0.9916000178619568, 'recall': 0.9914137049540077, 'f1-score': 0.9915058518387427, 'support': 11047}, 'weighted avg': {'precision': 0.9915818132798093, 'recall': 0.9915814248212185, 'f1-score': 0.9915806270258181, 'support': 11047}}
0.016	1.0862	3000	0.1018	0.9841	0.9727	0.9988	0.9856	0.9998	[[4839, 169], [7, 6032]]	{'0': {'precision': 0.9985555096987206, 'recall': 0.9662539936102237, 'f1-score': 0.9821392327988635, 'support': 5008}, '1': {'precision': 0.9727463312368972, 'recall': 0.9988408676933267, 'f1-score': 0.9856209150326798, 'support': 6039}, 'accuracy': 0.9840680727799402, 'macro avg': {'precision': 0.985650920467809, 'recall': 0.9825474306517752, 'f1-score': 0.9838800739157716, 'support': 11047}, 'weighted avg': {'precision': 0.9844465544410985, 'recall': 0.9840680727799402, 'f1-score': 0.9840425440154849, 'support': 11047}}
0.0209	1.4482	4000	0.0212	0.9957	0.9950	0.9972	0.9961	0.9999	[[4978, 30], [17, 6022]]	{'0': {'precision': 0.9965965965965966, 'recall': 0.9940095846645367, 'f1-score': 0.9953014095771269, 'support': 5008}, '1': {'precision': 0.9950429610046265, 'recall': 0.9971849643980791, 'f1-score': 0.9961128111818707, 'support': 6039}, 'accuracy': 0.995745451253734, 'macro avg': {'precision': 0.9958197788006116, 'recall': 0.995597274531308, 'f1-score': 0.9957071103794988, 'support': 11047}, 'weighted avg': {'precision': 0.9957472795566846, 'recall': 0.995745451253734, 'f1-score': 0.9957449738290548, 'support': 11047}}
0.0233	1.8103	5000	0.0192	0.9964	0.9944	0.9990	0.9967	1.0000	[[4974, 34], [6, 6033]]	{'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}}