voiceGUARD開源音頻分類器 - 免費部署，精準區分真人與AI生成語音

首頁

Voiceguard

由Mrkomiljon開發

基於Wav2Vec2微調的音頻分類器，能夠區分真人語音和AI生成語音。

音頻分類

Transformers

英語開源協議:MIT #AI語音鑑別 #高精度音頻分類 #語音防偽

下載量 127

發布時間 : 12/2/2024

模型概述

該模型用於檢測音頻是否為AI生成，可識別多種TTS模型生成的語音，適用於語音安全驗證場景。

模型特點

高準確率分類

測試集驗證準確率達99.8%，能有效區分真人語音與多種AI生成語音

多模型兼容

支持識別Melgan、DiffWave等多種TTS模型生成的語音

輕量級部署

基於Wav2Vec2-base架構，適合即時推理場景

模型能力

音頻分類

AI生成語音檢測

語音真實性驗證

使用案例

安全驗證

語音釣魚防護

檢測可疑電話中的AI合成語音

可識別99%以上的已知TTS模型生成語音

內容審核

虛假音頻識別

識別社交媒體中的AI生成語音內容

🚀 語音檢測AI - 真實與AI音頻分類器

本項目是一個基於Wav2Vec2微調的音頻分類器，能夠精準區分真實人類語音和AI生成語音。它在包含各種TTS模型樣本和真實人類音頻記錄的數據集上進行了訓練。

image/webp

🚀 快速開始

安裝依賴

確保你已經安裝了 transformers 和 torch：

pip install transformers torch torchaudio

使用示例

以下是如何使用VoiceGUARD進行音頻分類的示例：

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import torchaudio

# 加載模型和處理器
model_name = "Mrkomiljon/voiceGUARD"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 加載音頻
waveform, sample_rate = torchaudio.load("path_to_audio_file.wav")

# 必要時進行重採樣
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    waveform = resampler(waveform)

# 預處理
inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

# 推理
with torch.no_grad():
    logits = model(**inputs).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# 映射到標籤
labels = ["Real Human Voice", "AI-generated"]
prediction = labels[predicted_ids.item()]
print(f"Prediction: {prediction}")

✨ 主要特性

能夠區分真實人類語音和AI生成語音。
在多種AI生成模型上具有較好的分類效果。

📦 安裝指南

確保你已經安裝了 transformers 和 torch：

pip install transformers torch torchaudio

💻 使用示例

基礎用法

import torch
from transformers import Wav2Vec2ForSequenceClassification, Wav2Vec2Processor
import torchaudio

# 加載模型和處理器
model_name = "Mrkomiljon/voiceGUARD"
model = Wav2Vec2ForSequenceClassification.from_pretrained(model_name)
processor = Wav2Vec2Processor.from_pretrained(model_name)

# 加載音頻
waveform, sample_rate = torchaudio.load("path_to_audio_file.wav")

# 必要時進行重採樣
if sample_rate != 16000:
    resampler = torchaudio.transforms.Resample(orig_freq=sample_rate, new_freq=16000)
    waveform = resampler(waveform)

# 預處理
inputs = processor(waveform.squeeze().numpy(), sampling_rate=16000, return_tensors="pt", padding=True)

# 推理
with torch.no_grad():
    logits = model(**inputs).logits
    predicted_ids = torch.argmax(logits, dim=-1)

# 映射到標籤
labels = ["Real Human Voice", "AI-generated"]
prediction = labels[predicted_ids.item()]
print(f"Prediction: {prediction}")

📚 詳細文檔

模型概述

此模型是一個基於Wav2Vec2微調的音頻分類器，能夠區分真實人類語音和AI生成語音。它在包含各種TTS模型樣本和真實人類音頻記錄的數據集上進行了訓練。

模型詳情

屬性	詳情
模型類型	Wav2Vec2ForSequenceClassification
微調數據集	包含真實和AI生成音頻的自定義數據集
分類類別	1. 真實人類語音 2. AI生成（如Melgan、DiffWave等）
輸入要求	- 音頻格式：`.wav`、`.mp3`等 - 採樣率：16kHz - 最大時長：10秒（較長音頻會被截斷，較短音頻會被填充）