ast-fakeaudio-detector開源音頻檢測模型 - 精準揪出偽造/合成音頻，準確率近97%

首頁

Ast Fakeaudio Detector

由WpythonW開發

基於AST架構微調的二元分類模型，專門用於檢測偽造/合成音頻，準確率達96.62%

音頻分類

Transformers

支持多種語言開源協議:Apache-2.0 #高精度偽造檢測 #音頻頻譜分析 #16kHz單聲道專用

下載量 31

發布時間 : 1/4/2025

模型概述

該模型是在MIT/ast-finetuned-audioset基礎上微調的版本，通過替換分類頭優化了偽造音頻檢測能力，輸入為音頻頻譜圖，輸出偽造/真實概率

模型特點

高精度檢測

在真實偽造語音數據集2上達到96.62%的準確率和97.1的F1值

專業優化

專門針對偽造音頻檢測任務優化了分類層

高效處理

支持批量音頻處理，適合大規模檢測場景

模型能力

音頻真實性檢測

偽造音頻識別

批量音頻處理

使用案例

安全驗證

語音認證系統

檢測語音認證系統中可能使用的偽造音頻

可有效識別96%以上的偽造樣本

內容審核

合成音頻檢測

識別社交媒體上的合成/偽造音頻內容

🚀 AST 微調用於虛假音頻檢測

本模型是 MIT/ast-finetuned-audioset-10-10-0.4593 的微調版本，帶有二分類頭部，用於檢測虛假/合成音頻。原始的 AST（音頻頻譜圖變換器）分類頭被替換為針對虛假音頻檢測優化的二分類層。

✨ 主要特性

模型類型：基於 AST 架構的二分類模型，用於虛假/真實音頻檢測。
輸入：轉換為梅爾頻譜圖的音頻（128 個梅爾頻帶，1024 個時間幀）。
輸出：概率 [虛假概率, 真實概率]。
訓練硬件：2 塊 NVIDIA T4 GPU。

📦 安裝指南

文檔未提供具體安裝步驟，可根據 transformers 庫的常規安裝方法進行安裝，例如使用 pip install transformers。

💻 使用示例

基礎用法

import torch
import torchaudio
import soundfile as sf
import numpy as np
from transformers import AutoFeatureExtractor, AutoModelForAudioClassification

# Load model and move to available device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name = "WpythonW/ast-fakeaudio-detector"

extractor = AutoFeatureExtractor.from_pretrained(model_name)
model = AutoModelForAudioClassification.from_pretrained(model_name).to(device)
model.eval()

# Process multiple audio files
audio_files = ["audio1.wav", "audio2.mp3", "audio3.ogg"]
processed_batch = []

for audio_path in audio_files:
    # Load audio file
    audio_data, sr = sf.read(audio_path)
    
    # Convert stereo to mono if needed
    if len(audio_data.shape) > 1 and audio_data.shape[1] > 1:
        audio_data = np.mean(audio_data, axis=1)
    
    # Resample to 16kHz if needed
    if sr != 16000:
        waveform = torch.from_numpy(audio_data).float()
        if len(waveform.shape) == 1:
            waveform = waveform.unsqueeze(0)
        
        resample = torchaudio.transforms.Resample(
            orig_freq=sr, 
            new_freq=16000
        )
        waveform = resample(waveform)
        audio_data = waveform.squeeze().numpy()
    
    processed_batch.append(audio_data)

# Prepare batch input
inputs = extractor(
    processed_batch,
    sampling_rate=16000,
    padding=True,
    return_tensors="pt"
)
inputs = {k: v.to(device) for k, v in inputs.items()}

# Get predictions
with torch.no_grad():
    logits = model(**inputs).logits
    probabilities = torch.nn.functional.softmax(logits, dim=-1)

# Process results
for filename, probs in zip(audio_files, probabilities):
    fake_prob = float(probs[0].cpu())
    real_prob = float(probs[1].cpu())
    prediction = "FAKE" if fake_prob > real_prob else "REAL"
    
    print(f"\nFile: {filename}")
    print(f"Fake probability: {fake_prob:.2%}")
    print(f"Real probability: {real_prob:.2%}")
    print(f"Verdict: {prediction}")

📚 詳細文檔

模型信息

屬性	詳情
模型類型	基於 MIT/ast-finetuned-audioset-10-10-0.4593 的二分類模型
訓練數據	WpythonW/real-fake-voices-dataset2、mozilla-foundation/common_voice_17_0
評估指標	準確率、F1 分數、召回率、精確率
推理參數	採樣率 16000，單聲道音頻