V

VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection

由 MattyB95 开发
基于深度学习的合成语音检测模型,通过微调预训练模型实现高效准确的合成语音检测
下载量 788
发布时间 : 1/23/2024

模型简介

该模型是基于Vision Transformer (ViT)架构的合成语音检测模型,专门用于识别Mel频谱图中的合成语音特征,为语音安全领域提供技术支持

模型特点

高准确率检测
在评估集上达到100%的准确率、F1值、精确率和召回率
基于预训练模型微调
在google/vit-base-patch16-224-in21k基础上进行微调,充分利用预训练模型的视觉特征提取能力
高效Mel频谱图分析
专门针对语音信号的Mel频谱图特征进行优化处理

模型能力

合成语音检测
音频分类
Mel频谱图分析

使用案例

语音安全
语音认证系统增强
用于检测语音认证系统中的合成语音攻击
可有效识别合成语音,防止欺骗攻击
音频内容审核
检测音频内容中是否包含合成语音
帮助平台识别潜在的AI生成语音内容
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase