wavlm - base - 960h - asv19 - deepfakeオープンソースモデル - 深度偽装オーディオを高精度で検出し、精度がほぼ100%に近い

Wavlm Base 960h Asv19 Deepfake

abhishtagatyaによって開発

マイクロソフトのWavLM-baseをファインチューニングしたディープフェイク音声検出モデルで、ASVspoof 2019データセットで優れた性能を発揮し、精度は99.79%に達します

ダウンロード数 16

リリース時間 : 3/14/2024

モデル概要

このモデルはディープフェイク音声や音声スプーフィング攻撃の検出に特化しており、セキュリティ検証やコンテンツの真正性検証シナリオに適しています

高精度検出

評価データセットで99.79%の精度を達成し、ディープフェイク音声を効果的に識別可能

低エラー率

等誤り率(EER)がわずか0.80%で、セキュリティが重要な場面でも信頼性が高い

WavLMアーキテクチャ採用

WavLMの強力な音声特徴抽出能力を活用し、音声関連タスクに特に適している

音声分類

ディープフェイク検出

音声スプーフィング識別

音声真正性検証

セキュリティ検証

電話銀行詐欺検出

音声認証プロセスにおけるディープフェイク攻撃を検出

99%以上の偽造音声を識別可能

コンテンツモデレーション

ソーシャルメディア音声審査

プラットフォーム上の偽造音声コンテンツを識別

プロパティ	詳細
ベースモデル	microsoft/wavlm-base
タグ	audio-classification, deepfake, audio-spoof, generated_from_trainer
評価指標	accuracy

学習損失	エポック	ステップ	検証損失	正確度	誤受率 (Far)	誤拒率 (Frr)	等誤率 (Eer)
0.0386	0.79	5000	0.0597	0.9895	0.1001	0.0003	0.0502
0.0196	1.58	10000	0.0269	0.9962	0.0326	0.0005	0.0165
0.0128	2.36	15000	0.0479	0.9938	0.0585	0.0002	0.0294
0.0152	3.15	20000	0.0119	0.9983	0.0067	0.0011	0.0039
0.0074	3.94	25000	0.0161	0.9979	0.0153	0.0006	0.0080