VIT-VoxCelebSpoof開源合成語音檢測模型 - 高效準確揪出合成語音

首頁

VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection

由MattyB95開發

基於深度學習的合成語音檢測模型，通過微調預訓練模型實現高效準確的合成語音檢測

說話人處理

Transformers

英語開源協議:MIT #高精度語音檢測 #合成語音識別 #語音安全防護

下載量 788

發布時間 : 1/23/2024

模型概述

該模型是基於Vision Transformer (ViT)架構的合成語音檢測模型，專門用於識別Mel頻譜圖中的合成語音特徵，為語音安全領域提供技術支持

模型特點

高準確率檢測

在評估集上達到100%的準確率、F1值、精確率和召回率

基於預訓練模型微調

在google/vit-base-patch16-224-in21k基礎上進行微調，充分利用預訓練模型的視覺特徵提取能力

高效Mel頻譜圖分析

專門針對語音信號的Mel頻譜圖特徵進行優化處理

模型能力

合成語音檢測

音頻分類

Mel頻譜圖分析

使用案例

語音安全

語音認證系統增強

用於檢測語音認證系統中的合成語音攻擊

可有效識別合成語音，防止欺騙攻擊

音頻內容審核

檢測音頻內容中是否包含合成語音

幫助平臺識別潛在的AI生成語音內容

訓練損失	輪數	步數	準確率	F1值	驗證損失	精確率	召回率
0.0048	1.0	29527	0.9998	0.9999	0.0010	0.9998	1.0
0.0	2.0	59054	0.0006	0.9999	0.9999	0.9999	0.9999
0.0	3.0	88581	0.0002	1.0000	1.0000	1.0000	1.0

屬性	詳情
基礎模型	google/vit-base-patch16-224-in21k
標籤	generated_from_trainer
評估指標	準確率、F1值、精確率、召回率
數據集	MattyB95/VoxCelebSpoof

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

VIT VoxCelebSpoof Mel Spectrogram Synthetic Voice Detection

模型概述

模型特點

模型能力

使用案例

🚀 VIT-VoxCelebSpoof-Mel_Spectrogram-合成語音檢測

🚀 快速開始

📚 詳細文檔

訓練和評估數據

模型描述

預期用途和限制

🔧 技術細節

訓練過程

訓練超參數

訓練結果

框架版本

📄 許可證

📦 模型信息