wav2vec2-base-960h-asv19-deepfakeオープンソースオーディオモデル、ディープフェイクとオーディオ詐欺を高精度に検出

ホーム

Wav2vec2 Base 960h Asv19 Deepfake

abhishtagatyaによって開発

facebook/wav2vec2-base-960hをファインチューニングした音声分類モデルで、ディープフェイクや音声スプーフィング検出に特化しています。

音声分類

Transformers

オープンソースライセンス:Apache-2.0 #音声ディープフェイク検出 #高精度声紋認証 #ASVspoof2019最適化

ダウンロード数 25

リリース時間 : 3/12/2024

モデル概要

このモデルは音声に含まれるディープフェイクやスプーフィング行為を検出するために使用され、評価データセットで高い精度と低いエラー率を示しています。

モデル特徴

高精度

評価データセットで98.45%の精度を達成

低エラー率

誤受入率(Far)0.9%、誤拒否率(Frr)1.62%、等誤り率(Eer)1.26%

成熟したアーキテクチャベース

実績のあるwav2vec2-base-960hアーキテクチャをファインチューニング

モデル能力

音声分類

ディープフェイク検出

音声スプーフィング検出

使用事例

セキュリティ認証

音声認証

音声認証システムにおける偽造音声を検出

98.45%の偽造音声を効果的に識別可能

コンテンツモデレーション

音声コンテンツ審査

改ざんや偽造された音声コンテンツを識別

🚀 wav2vec2-base-960h-asv19-deepfake

このモデルは、未知のデータセットで facebook/wav2vec2-base-960h をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.0962
正解率: 0.9845
誤受率 (Far): 0.0090
誤拒率 (Frr): 0.0162
等誤り率 (Eer): 0.0126

🚀 クイックスタート

このモデルは、音声分類やディープフェイク検出などのタスクに使用できます。

📚 ドキュメント

モデルの詳細

このモデルは、音声分類やディープフェイク検出に適用できます。

想定用途と制限事項

詳細情報はありません。

学習と評価データ

詳細情報はありません。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率 (learning_rate): 1e-06
学習バッチサイズ (train_batch_size): 2
評価バッチサイズ (eval_batch_size): 2
乱数シード (seed): 42
勾配累積ステップ数 (gradient_accumulation_steps): 2
総学習バッチサイズ (total_train_batch_size): 4
オプティマイザ (optimizer): Adam (betas=(0.9,0.999), epsilon=1e-08)
学習率スケジューラの種類 (lr_scheduler_type): linear
エポック数 (num_epochs): 4.0

学習結果

学習損失	エポック	ステップ	検証損失	正解率	誤受率 (Far)	誤拒率 (Frr)	等誤り率 (Eer)
0.3383	0.79	5000	0.2361	0.8974	1.0	0.0	0.5
0.0829	1.58	10000	0.1134	0.9739	0.0122	0.0277	0.0199
0.0441	2.36	15000	0.0922	0.9841	0.0118	0.0163	0.0140
0.0484	3.15	20000	0.1215	0.9798	0.0086	0.0215	0.0151
0.0335	3.94	25000	0.0962	0.9845	0.0090	0.0162	0.0126

フレームワークのバージョン

Transformers 4.38.0.dev0
Pytorch 2.1.2+cu121
Datasets 2.16.2.dev0
Tokenizers 0.15.2

📄 ライセンス

このモデルは Apache-2.0 ライセンスの下で提供されています。

📋 モデル情報

属性	詳情
モデルタイプ	音声分類、ディープフェイク検出、音声スプーフ検出
ベースモデル	facebook/wav2vec2-base-960h
評価指標	正解率