voiceGUARDオープンソース音声分類器 - 無料でデプロイ可能、人間の音声とAI生成音声を正確に区別

ホーム

Voiceguard

Mrkomiljonによって開発

Wav2Vec2をファインチューニングしたオーディオ分類器で、実在人物の音声とAI生成音声を区別できます。

音声分類

Transformers

英語オープンソースライセンス:MIT #AI音声識別 #高精度オーディオ分類 #音声偽造防止

ダウンロード数 127

リリース時間 : 12/2/2024

モデル概要

このモデルは音声がAI生成かどうかを検出するために使用され、様々なTTSモデルで生成された音声を識別可能で、音声セキュリティ検証シナリオに適しています。

モデル特徴

高精度分類

テストセットで99.8%の精度を達成し、実在人物音声と複数のAI生成音声を効果的に区別可能

多モデル互換

Melgan、DiffWaveなど様々なTTSモデルで生成された音声の識別をサポート

軽量デプロイ

Wav2Vec2-baseアーキテクチャを基にし、リアルタイム推論シナリオに適しています

モデル能力

オーディオ分類

AI生成音声検出

音声真正性検証

使用事例

セキュリティ検証

音声フィッシング防止

不審な電話におけるAI合成音声を検出

既知のTTSモデルで生成された音声の99%以上を識別可能

コンテンツモデレーション

偽造音声識別

ソーシャルメディア上のAI生成音声コンテンツを識別

🚀 音声検出AI - 実音声とAI音声の分類器

このモデルは、実際の人間の声とAI生成の声を区別できる、Wav2Vec2ベースの音声分類器です。様々なTTSモデルのサンプルと実際の人間の音声録音を含むデータセットで学習されています。

image/webp

🚀 クイックスタート

モデル概要

このモデルは、Wav2Vec2をベースに微調整された音声分類器で、実際の人間の声とAI生成の声を区別することができます。様々なTTSモデルのサンプルと実際の人間の音声録音を含むデータセットで学習されています。

モデル詳細

属性	详情
モデルタイプ	Wav2Vec2ForSequenceClassification
訓練データ	実際の音声とAI生成音声を含むカスタムデータセット
クラス	1. 実際の人間の声 2. AI生成（例：Melgan、DiffWaveなど）
入力要件	音声フォーマット: `.wav`, `.mp3` などサンプルレート: 16kHz 最大長: 10秒（長い音声は切り捨て、短い音声はパディング）

性能

ロバスト性: 複数のAI生成モデルにわたって成功的に分類します。
制限事項: 特定の未知のAI生成モデル（例：ElevenLabs）では苦労することがあります。

使い方

1. 依存関係のインストール

transformers と torch がインストールされていることを確認してください。

pip install transformers torch torchaudio

2. 音声分類の使用方法

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import torchaudio

# モデルとプロセッサをロード
model_name = "Mrkomiljon/voiceGUARD"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 音声をロード
waveform, sample_rate = torchaudio.load("path_to_audio_file.wav")

# 必要に応じてリサンプリング
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    waveform = resampler(waveform)

# 前処理
inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

# 推論
with torch.no_grad():
    logits = model(**inputs).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# ラベルにマッピング
labels = ["Real Human Voice", "AI-generated"]
prediction = labels[predicted_ids.item()]
print(f"Prediction: {prediction}")