Deepfake Audio Detection
基於音頻文件夾數據集微調的Deepfake音頻檢測模型,能夠高效識別合成語音,評估準確率達99.64%
下載量 107
發布時間 : 5/31/2024
模型概述
該模型專門用於檢測Deepfake合成音頻,通過分析音頻特徵區分真實與合成語音,適用於內容安全驗證場景
模型特點
高精度檢測
在測試集上達到99.64%的準確率和99.67%的F1值,ROC曲線下面積達1.0
低誤報率
召回率99.9%,僅6例合成音頻被誤判為真實語音
高效訓練
僅需2個訓練輪次即可達到最優性能,支持混合精度訓練
模型能力
音頻真實性鑑別
Deepfake語音檢測
二進制音頻分類
使用案例
內容安全
社交媒體內容審核
自動識別平臺上的合成語音內容
可減少99.9%的漏檢率
司法取證
語音證據驗證
鑑別錄音證據是否經過AI合成篡改
準確率99.6%的司法級檢測
🚀 深度偽造音頻檢測
本項目的深度偽造音頻檢測模型,基於特定數據集微調,能精準識別音頻是否為深度偽造,在評估集上展現出高準確率、精確率和召回率,為音頻真實性驗證提供可靠支持。
🚀 快速開始
此模型是 motheecreator/Deepfake-audio-detection 在 audiofolder 數據集上的微調版本。它在評估集上取得了以下結果:
- 損失值:0.0192
- 準確率:0.9964
- 精確率:0.9944
- 召回率:0.9990
- F1值:0.9967
- Auc Roc值:1.0000
- 混淆矩陣:[[4974, 34], [6, 6033]]
- 分類報告:{'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}}
🔧 技術細節
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:3e-05
- 訓練批次大小:16
- 評估批次大小:16
- 隨機種子:42
- 梯度累積步數:2
- 總訓練批次大小:32
- 優化器:Adam(β1=0.9,β2=0.999,ε=1e-08)
- 學習率調度器類型:餘弦
- 學習率調度器預熱比例:0.1
- 訓練輪數:2
- 混合精度訓練:Native AMP
訓練結果
訓練損失 | 輪數 | 步數 | 驗證損失 | 準確率 | 精確率 | 召回率 | F1值 | Auc Roc值 | 混淆矩陣 | 分類報告 |
---|---|---|---|---|---|---|---|---|---|---|
0.1006 | 0.3621 | 1000 | 0.1897 | 0.9651 | 0.9424 | 0.9972 | 0.9690 | 0.9989 | [[4640, 368], [17, 6022]] | {'0': {'precision': 0.9963495812754992, 'recall': 0.9265175718849841, 'f1-score': 0.9601655457837558, 'support': 5008}, '1': {'precision': 0.9424100156494523, 'recall': 0.9971849643980791, 'f1-score': 0.969024056641725, 'support': 6039}, 'accuracy': 0.9651489092061193, 'macro avg': {'precision': 0.9693797984624757, 'recall': 0.9618512681415317, 'f1-score': 0.9645948012127403, 'support': 11047}, 'weighted avg': {'precision': 0.9668627489395077, 'recall': 0.9651489092061193, 'f1-score': 0.9650081770023017, 'support': 11047}} |
0.07 | 0.7241 | 2000 | 0.0333 | 0.9916 | 0.9914 | 0.9932 | 0.9923 | 0.9997 | [[4956, 52], [41, 5998]] | {'0': {'precision': 0.9917950770462277, 'recall': 0.9896166134185304, 'f1-score': 0.9907046476761618, 'support': 5008}, '1': {'precision': 0.991404958677686, 'recall': 0.993210796489485, 'f1-score': 0.9923070560013236, 'support': 6039}, 'accuracy': 0.9915814248212185, 'macro avg': {'precision': 0.9916000178619568, 'recall': 0.9914137049540077, 'f1-score': 0.9915058518387427, 'support': 11047}, 'weighted avg': {'precision': 0.9915818132798093, 'recall': 0.9915814248212185, 'f1-score': 0.9915806270258181, 'support': 11047}} |
0.016 | 1.0862 | 3000 | 0.1018 | 0.9841 | 0.9727 | 0.9988 | 0.9856 | 0.9998 | [[4839, 169], [7, 6032]] | {'0': {'precision': 0.9985555096987206, 'recall': 0.9662539936102237, 'f1-score': 0.9821392327988635, 'support': 5008}, '1': {'precision': 0.9727463312368972, 'recall': 0.9988408676933267, 'f1-score': 0.9856209150326798, 'support': 6039}, 'accuracy': 0.9840680727799402, 'macro avg': {'precision': 0.985650920467809, 'recall': 0.9825474306517752, 'f1-score': 0.9838800739157716, 'support': 11047}, 'weighted avg': {'precision': 0.9844465544410985, 'recall': 0.9840680727799402, 'f1-score': 0.9840425440154849, 'support': 11047}} |
0.0209 | 1.4482 | 4000 | 0.0212 | 0.9957 | 0.9950 | 0.9972 | 0.9961 | 0.9999 | [[4978, 30], [17, 6022]] | {'0': {'precision': 0.9965965965965966, 'recall': 0.9940095846645367, 'f1-score': 0.9953014095771269, 'support': 5008}, '1': {'precision': 0.9950429610046265, 'recall': 0.9971849643980791, 'f1-score': 0.9961128111818707, 'support': 6039}, 'accuracy': 0.995745451253734, 'macro avg': {'precision': 0.9958197788006116, 'recall': 0.995597274531308, 'f1-score': 0.9957071103794988, 'support': 11047}, 'weighted avg': {'precision': 0.9957472795566846, 'recall': 0.995745451253734, 'f1-score': 0.9957449738290548, 'support': 11047}} |
0.0233 | 1.8103 | 5000 | 0.0192 | 0.9964 | 0.9944 | 0.9990 | 0.9967 | 1.0000 | [[4974, 34], [6, 6033]] | {'0': {'precision': 0.9987951807228915, 'recall': 0.9932108626198083, 'f1-score': 0.9959951942330797, 'support': 5008}, '1': {'precision': 0.9943959123125103, 'recall': 0.9990064580228515, 'f1-score': 0.9966958532958864, 'support': 6039}, 'accuracy': 0.9963791074499864, 'macro avg': {'precision': 0.996595546517701, 'recall': 0.9961086603213298, 'f1-score': 0.996345523764483, 'support': 11047}, 'weighted avg': {'precision': 0.9963902579447351, 'recall': 0.9963791074499864, 'f1-score': 0.9963782194960733, 'support': 11047}} |
框架版本
- Transformers 4.41.1
- Pytorch 2.1.2
- Datasets 2.19.1
- Tokenizers 0.19.1
📄 許可證
本項目採用 Apache-2.0 許可證。
Mms Lid 126
基於Facebook大規模多語言語音項目微調的語言識別模型,支持126種語言的音頻分類
音頻分類
Transformers 支持多種語言

M
facebook
2.1M
26
Wav2vec2 Base Finetuned Speech Commands V0.02
Apache-2.0
該模型是基於facebook/wav2vec2-base在speech_commands數據集上微調的語音命令識別模型,準確率達97.59%。
音頻分類
Transformers

W
0xb1
1.2M
0
Whisper Medium Fleurs Lang Id
Apache-2.0
基於OpenAI Whisper-medium微調的語音語種識別模型,在FLEURS數據集上達到88.05%準確率
音頻分類
Transformers

W
sanchit-gandhi
590.30k
14
Wav2vec2 Large Robust 12 Ft Emotion Msp Dim
該模型通過對Wav2Vec2-Large-Robust進行微調訓練,用於語音情感識別,輸出喚醒度、支配度和效價三個維度的預測值。
音頻分類
Transformers 英語

W
audeering
394.51k
109
Lang Id Voxlingua107 Ecapa
Apache-2.0
基於SpeechBrain框架和ECAPA-TDNN架構的語音語言識別模型,支持107種語言的識別和語音嵌入向量提取。
音頻分類
PyTorch 支持多種語言
L
speechbrain
330.01k
112
Ast Finetuned Audioset 10 10 0.4593
Bsd-3-clause
音頻頻譜圖變換器(AST)是基於AudioSet微調的模型,將音頻轉換為頻譜圖後應用視覺變換器進行音頻分類。
音頻分類
Transformers

A
MIT
308.88k
311
Whisper Small Ft Common Language Id
Apache-2.0
基於openai/whisper-small微調的通用語言識別模型,在評估集上準確率達88.6%
音頻分類
Transformers

W
sanchit-gandhi
256.20k
2
Emotion Recognition Wav2vec2 IEMOCAP
Apache-2.0
使用微調的wav2vec2模型進行語音情感識別,在IEMOCAP數據集上訓練
音頻分類
PyTorch 英語
E
speechbrain
237.65k
131
Ast Finetuned Audioset 14 14 0.443
Bsd-3-clause
基於AudioSet數據集微調的音頻頻譜圖變換器,將音頻轉換為頻譜圖後使用視覺變換器架構處理,在音頻分類任務中表現優異。
音頻分類
Transformers

A
MIT
194.20k
5
Wav2vec2 Large Xlsr 53 Gender Recognition Librispeech
Apache-2.0
基於Librispeech-clean-100數據集微調的性別識別模型,在測試集上F1分數達0.9993
音頻分類
Transformers

W
alefiury
182.33k
42
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98