Deepfake-audio-detectionオープンソース音声モデル - 高い正確性で深度偽装音声を識別

Deepfake Audio Detection

motheecreatorによって開発

wav2vec2-base-finetunedを基にさらに微調整した音声処理モデルで、評価セットで98.82%の精度を達成

ダウンロード数 1,468

リリース時間 : 5/18/2024

モデル概要

このモデルはwav2vec2アーキテクチャに基づく音声処理モデルで、2回の微調整を経ており、音声認識などのタスクに適しています

高精度

評価セットで98.82%の精度を達成し、優れた性能を発揮

二重微調整

既に微調整済みのモデルを基に二次微調整を行い、タスク適応性が向上している可能性

最適化トレーニング

学習率スケジューリングや勾配蓄積など、慎重に設計されたトレーニングハイパーパラメータを採用

音声認識

音声特徴抽出

音声処理

音声からテキストへ

音声内容をテキストに変換

高精度な変換結果

音声コマンド認識

音声コマンドを認識し対応する操作を実行

トレーニング損失	エポック	ステップ	精度	検証損失
0.1448	1.0	1900	0.9601	0.1447
0.0673	2.0	3800	0.9824	0.0817
0.0178	3.0	5700	0.9796	0.1054
0.0002	4.0	7600	0.9824	0.1074
0.0108	5.0	9500	0.9882	0.0829

プロパティ	詳細
モデルタイプ	このモデルは mo-thecreator/wav2vec2-base-finetuned をファインチューニングしたバージョンです。
トレーニングデータ	None データセット
指標	精度
生成元	Trainer から自動生成