wav2vec2-large-ft-fake-detectionオープンソース音声分類モデル

Wav2vec2 Large Ft Fake Detection

alexandreacffによって開発

facebook/wav2vec2-largeをファインチューニングした音声分類モデルで、偽造音声の検出に使用

ダウンロード数 1,545

リリース時間 : 5/9/2024

モデル概要

このモデルはalexandreacff/kaggle-fake-detectionデータセットでファインチューニングされたバージョンで、主に音声の真偽検出タスクに使用

高精度

評価データセットで71.03%の精度を達成

wav2vec2-largeベースのファインチューニング

強力なwav2vec2-largeアーキテクチャを特徴量抽出に利用

軽量トレーニング

わずか10エポックのトレーニングで良好な効果を獲得

音声分類

偽造音声検出

音声特徴量抽出

セキュリティ検証

音声真偽検証

音声記録が改ざんまたは合成されているかどうかを検出

71.03%の精度

コンテンツモデレーション

合成音声識別

プラットフォーム上のAI生成音声コンテンツを自動識別

このモデルは、facebook/wav2vec2-large を alexandreacff/kaggle-fake-detection データセットでファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

このモデルは、音声分類タスクに使用できます。具体的な使用方法については、Hugging Faceのドキュメントを参照してください。

このモデルは、音声分類タスクに特化したモデルです。元のモデルは facebook/wav2vec2-large で、alexandreacff/kaggle-fake-detection データセットでファインチューニングされています。

想定される用途は音声分類です。ただし、特定のデータセットで訓練されているため、他のデータセットやシナリオでの性能は保証されません。

訓練と評価に使用されたデータについては、alexandreacff/kaggle-fake-detection データセットを参照してください。

訓練中に使用されたハイパーパラメータは以下の通りです。