ast-fakeaudio-detector开源音频检测模型 - 精准揪出伪造/合成音频，准确率近97%

首页

Ast Fakeaudio Detector

由 WpythonW 开发

基于AST架构微调的二元分类模型，专门用于检测伪造/合成音频，准确率达96.62%

音频分类

Transformers

支持多种语言开源协议:Apache-2.0 #高精度伪造检测 #音频频谱分析 #16kHz单声道专用

下载量 31

发布时间 : 1/4/2025

模型简介

该模型是在MIT/ast-finetuned-audioset基础上微调的版本，通过替换分类头优化了伪造音频检测能力，输入为音频频谱图，输出伪造/真实概率

模型特点

高精度检测

在真实伪造语音数据集2上达到96.62%的准确率和97.1的F1值

专业优化

专门针对伪造音频检测任务优化了分类层

高效处理

支持批量音频处理，适合大规模检测场景

模型能力

音频真实性检测

伪造音频识别

批量音频处理

使用案例

安全验证

语音认证系统

检测语音认证系统中可能使用的伪造音频

可有效识别96%以上的伪造样本

内容审核

合成音频检测

识别社交媒体上的合成/伪造音频内容

🚀 AST 微调用于虚假音频检测

本模型是 MIT/ast-finetuned-audioset-10-10-0.4593 的微调版本，带有二分类头部，用于检测虚假/合成音频。原始的 AST（音频频谱图变换器）分类头被替换为针对虚假音频检测优化的二分类层。

✨ 主要特性

模型类型：基于 AST 架构的二分类模型，用于虚假/真实音频检测。
输入：转换为梅尔频谱图的音频（128 个梅尔频带，1024 个时间帧）。
输出：概率 [虚假概率, 真实概率]。
训练硬件：2 块 NVIDIA T4 GPU。

📦 安装指南

文档未提供具体安装步骤，可根据 transformers 库的常规安装方法进行安装，例如使用 pip install transformers。

💻 使用示例

基础用法

import torch
import torchaudio
import soundfile as sf
import numpy as np
from transformers import AutoFeatureExtractor, AutoModelForAudioClassification

# Load model and move to available device
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_name = "WpythonW/ast-fakeaudio-detector"

extractor = AutoFeatureExtractor.from_pretrained(model_name)
model = AutoModelForAudioClassification.from_pretrained(model_name).to(device)
model.eval()

# Process multiple audio files
audio_files = ["audio1.wav", "audio2.mp3", "audio3.ogg"]
processed_batch = []

for audio_path in audio_files:
    # Load audio file
    audio_data, sr = sf.read(audio_path)
    
    # Convert stereo to mono if needed
    if len(audio_data.shape) > 1 and audio_data.shape[1] > 1:
        audio_data = np.mean(audio_data, axis=1)
    
    # Resample to 16kHz if needed
    if sr != 16000:
        waveform = torch.from_numpy(audio_data).float()
        if len(waveform.shape) == 1:
            waveform = waveform.unsqueeze(0)
        
        resample = torchaudio.transforms.Resample(
            orig_freq=sr, 
            new_freq=16000
        )
        waveform = resample(waveform)
        audio_data = waveform.squeeze().numpy()
    
    processed_batch.append(audio_data)

# Prepare batch input
inputs = extractor(
    processed_batch,
    sampling_rate=16000,
    padding=True,
    return_tensors="pt"
)
inputs = {k: v.to(device) for k, v in inputs.items()}

# Get predictions
with torch.no_grad():
    logits = model(**inputs).logits
    probabilities = torch.nn.functional.softmax(logits, dim=-1)

# Process results
for filename, probs in zip(audio_files, probabilities):
    fake_prob = float(probs[0].cpu())
    real_prob = float(probs[1].cpu())
    prediction = "FAKE" if fake_prob > real_prob else "REAL"
    
    print(f"\nFile: {filename}")
    print(f"Fake probability: {fake_prob:.2%}")
    print(f"Real probability: {real_prob:.2%}")
    print(f"Verdict: {prediction}")

📚 详细文档

模型信息

属性	详情
模型类型	基于 MIT/ast-finetuned-audioset-10-10-0.4593 的二分类模型
训练数据	WpythonW/real-fake-voices-dataset2、mozilla-foundation/common_voice_17_0
评估指标	准确率、F1 分数、召回率、精确率
推理参数	采样率 16000，单声道音频