VIT-VoxCelebSpoof开源合成语音检测模型 - 高效准确揪出合成语音

首页

VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection

由 MattyB95 开发

基于深度学习的合成语音检测模型，通过微调预训练模型实现高效准确的合成语音检测

说话人处理

Transformers

英语开源协议:MIT #高精度语音检测 #合成语音识别 #语音安全防护

下载量 788

发布时间 : 1/23/2024

模型简介

该模型是基于Vision Transformer (ViT)架构的合成语音检测模型，专门用于识别Mel频谱图中的合成语音特征，为语音安全领域提供技术支持

模型特点

高准确率检测

在评估集上达到100%的准确率、F1值、精确率和召回率

基于预训练模型微调

在google/vit-base-patch16-224-in21k基础上进行微调，充分利用预训练模型的视觉特征提取能力

高效Mel频谱图分析

专门针对语音信号的Mel频谱图特征进行优化处理

模型能力

合成语音检测

音频分类

Mel频谱图分析

使用案例

语音安全

语音认证系统增强

用于检测语音认证系统中的合成语音攻击

可有效识别合成语音，防止欺骗攻击

音频内容审核

检测音频内容中是否包含合成语音

帮助平台识别潜在的AI生成语音内容

训练损失	轮数	步数	准确率	F1值	验证损失	精确率	召回率
0.0048	1.0	29527	0.9998	0.9999	0.0010	0.9998	1.0
0.0	2.0	59054	0.0006	0.9999	0.9999	0.9999	0.9999
0.0	3.0	88581	0.0002	1.0000	1.0000	1.0000	1.0

属性	详情
基础模型	google/vit-base-patch16-224-in21k
标签	generated_from_trainer
评估指标	准确率、F1值、精确率、召回率
数据集	MattyB95/VoxCelebSpoof

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库

VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection

模型简介

模型特点

模型能力

使用案例

🚀 VIT-VoxCelebSpoof-Mel_Spectrogram-合成语音检测

🚀 快速开始

📚 详细文档

训练和评估数据

模型描述

预期用途和限制

🔧 技术细节

训练过程

训练超参数

训练结果

框架版本

📄 许可证

📦 模型信息