Deepfake Audio Detection
基于音频文件夹数据集微调的Deepfake音频检测模型,能够高效识别合成语音,评估准确率达99.64%
下载量 107
发布时间 : 5/31/2024
模型简介
该模型专门用于检测Deepfake合成音频,通过分析音频特征区分真实与合成语音,适用于内容安全验证场景
模型特点
高精度检测
在测试集上达到99.64%的准确率和99.67%的F1值,ROC曲线下面积达1.0
低误报率
召回率99.9%,仅6例合成音频被误判为真实语音
高效训练
仅需2个训练轮次即可达到最优性能,支持混合精度训练
模型能力
音频真实性鉴别
Deepfake语音检测
二进制音频分类
使用案例
内容安全
社交媒体内容审核
自动识别平台上的合成语音内容
可减少99.9%的漏检率
司法取证
语音证据验证
鉴别录音证据是否经过AI合成篡改
准确率99.6%的司法级检测
🚀 深度伪造音频检测
本项目的深度伪造音频检测模型,基于特定数据集微调,能精准识别音频是否为深度伪造,在评估集上展现出高准确率、精确率和召回率,为音频真实性验证提供可靠支持。
🚀 快速开始
此模型是 motheecreator/Deepfake-audio-detection 在 audiofolder 数据集上的微调版本。它在评估集上取得了以下结果:
- 损失值:0.0192
- 准确率:0.9964
- 精确率:0.9944
- 召回率:0.9990
- F1值:0.9967
- Auc Roc值:1.0000
- 混淆矩阵:[[4974, 34], [6, 6033]]
- 分类报告:{'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}}
🔧 技术细节
训练超参数
训练过程中使用了以下超参数:
- 学习率:3e-05
- 训练批次大小:16
- 评估批次大小:16
- 随机种子:42
- 梯度累积步数:2
- 总训练批次大小:32
- 优化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 学习率调度器类型:余弦
- 学习率调度器预热比例:0.1
- 训练轮数:2
- 混合精度训练:Native AMP
训练结果
训练损失 | 轮数 | 步数 | 验证损失 | 准确率 | 精确率 | 召回率 | F1值 | Auc Roc值 | 混淆矩阵 | 分类报告 |
---|---|---|---|---|---|---|---|---|---|---|
0.1006 | 0.3621 | 1000 | 0.1897 | 0.9651 | 0.9424 | 0.9972 | 0.9690 | 0.9989 | [[4640, 368], [17, 6022]] | {'0': {'precision': 0.9963495812754992, 'recall': 0.9265175718849841, 'f1-score': 0.9601655457837558, 'support': 5008}, '1': {'precision': 0.9424100156494523, 'recall': 0.9971849643980791, 'f1-score': 0.969024056641725, 'support': 6039}, 'accuracy': 0.9651489092061193, 'macro avg': {'precision': 0.9693797984624757, 'recall': 0.9618512681415317, 'f1-score': 0.9645948012127403, 'support': 11047}, 'weighted avg': {'precision': 0.9668627489395077, 'recall': 0.9651489092061193, 'f1-score': 0.9650081770023017, 'support': 11047}} |
0.07 | 0.7241 | 2000 | 0.0333 | 0.9916 | 0.9914 | 0.9932 | 0.9923 | 0.9997 | [[4956, 52], [41, 5998]] | {'0': {'precision': 0.9917950770462277, 'recall': 0.9896166134185304, 'f1-score': 0.9907046476761618, 'support': 5008}, '1': {'precision': 0.991404958677686, 'recall': 0.993210796489485, 'f1-score': 0.9923070560013236, 'support': 6039}, 'accuracy': 0.9915814248212185, 'macro avg': {'precision': 0.9916000178619568, 'recall': 0.9914137049540077, 'f1-score': 0.9915058518387427, 'support': 11047}, 'weighted avg': {'precision': 0.9915818132798093, 'recall': 0.9915814248212185, 'f1-score': 0.9915806270258181, 'support': 11047}} |
0.016 | 1.0862 | 3000 | 0.1018 | 0.9841 | 0.9727 | 0.9988 | 0.9856 | 0.9998 | [[4839, 169], [7, 6032]] | {'0': {'precision': 0.9985555096987206, 'recall': 0.9662539936102237, 'f1-score': 0.9821392327988635, 'support': 5008}, '1': {'precision': 0.9727463312368972, 'recall': 0.9988408676933267, 'f1-score': 0.9856209150326798, 'support': 6039}, 'accuracy': 0.9840680727799402, 'macro avg': {'precision': 0.985650920467809, 'recall': 0.9825474306517752, 'f1-score': 0.9838800739157716, 'support': 11047}, 'weighted avg': {'precision': 0.9844465544410985, 'recall': 0.9840680727799402, 'f1-score': 0.9840425440154849, 'support': 11047}} |
0.0209 | 1.4482 | 4000 | 0.0212 | 0.9957 | 0.9950 | 0.9972 | 0.9961 | 0.9999 | [[4978, 30], [17, 6022]] | {'0': {'precision': 0.9965965965965966, 'recall': 0.9940095846645367, 'f1-score': 0.9953014095771269, 'support': 5008}, '1': {'precision': 0.9950429610046265, 'recall': 0.9971849643980791, 'f1-score': 0.9961128111818707, 'support': 6039}, 'accuracy': 0.995745451253734, 'macro avg': {'precision': 0.9958197788006116, 'recall': 0.995597274531308, 'f1-score': 0.9957071103794988, 'support': 11047}, 'weighted avg': {'precision': 0.9957472795566846, 'recall': 0.995745451253734, 'f1-score': 0.9957449738290548, 'support': 11047}} |
0.0233 | 1.8103 | 5000 | 0.0192 | 0.9964 | 0.9944 | 0.9990 | 0.9967 | 1.0000 | [[4974, 34], [6, 6033]] | {'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}} |
框架版本
- Transformers 4.41.1
- Pytorch 2.1.2
- Datasets 2.19.1
- Tokenizers 0.19.1
📄 许可证
本项目采用 Apache-2.0 许可证。
Mms Lid 126
基于Facebook大规模多语言语音项目微调的语言识别模型,支持126种语言的音频分类
音频分类
Transformers 支持多种语言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
该模型是基于facebook/wav2vec2-base在speech_commands数据集上微调的语音命令识别模型,准确率达97.59%。
音频分类
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基于OpenAI Whisper-medium微调的语音语种识别模型,在FLEURS数据集上达到88.05%准确率
音频分类
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
该模型通过对Wav2Vec2-Large-Robust进行微调训练,用于语音情感识别,输出唤醒度、支配度和效价三个维度的预测值。
音频分类
Transformers 英语

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基于SpeechBrain框架和ECAPA-TDNN架构的语音语言识别模型,支持107种语言的识别和语音嵌入向量提取。
音频分类
PyTorch 支持多种语言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音频频谱图变换器(AST)是基于AudioSet微调的模型,将音频转换为频谱图后应用视觉变换器进行音频分类。
音频分类
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基于openai/whisper-small微调的通用语言识别模型,在评估集上准确率达88.6%
音频分类
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微调的wav2vec2模型进行语音情感识别,在IEMOCAP数据集上训练
音频分类
PyTorch 英语
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基于AudioSet数据集微调的音频频谱图变换器,将音频转换为频谱图后使用视觉变换器架构处理,在音频分类任务中表现优异。
音频分类
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基于Librispeech-clean-100数据集微调的性别识别模型,在测试集上F1分数达0.9993
音频分类
Transformers

W
alefiury
182.33k
42
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98