W

Wav2vec2 Large Xlsr Deepfake Audio Classification

Developed by Gustking
基于wav2vec2架构的音频分类模型,针对深度伪造音频检测任务进行微调,在性别识别和伪造音频检测方面表现优异。
Downloads 345
Release Time : 5/15/2024

Model Overview

该模型是基于wav2vec2架构的音频分类模型,专门针对深度伪造音频检测任务进行了微调。主要用于识别音频中的性别特征以及检测伪造音频,在ASVspoof2019等数据集上表现出色。

Model Features

高精度伪造音频检测
在ASVspoof2019评估子集上F1分数达到0.9363,等错误率仅为0.0401
优秀性别识别能力
在原始评估数据上F1分数达到0.95,损失值仅为0.4056
基于wav2vec2架构
采用强大的wav2vec2-large-xlsr-53架构,具备优秀的音频特征提取能力

Model Capabilities

音频分类
性别识别
深度伪造音频检测

Use Cases

安全检测
伪造音频识别
用于检测语音合成或语音转换等伪造音频
在ASVspoof2019数据集上准确率达92.86%
语音分析
说话人性别识别
识别音频中的说话人性别特征
F1分数达到0.95
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase