HumAware-VAD開源模型 - 精準區分哼唱與真實語音的語音活動檢測工具

首頁

Humaware VAD

由CuriousMonkey7開發

基於Silero-VAD微調的哼唱感知語音活動檢測模型，專門用於區分哼唱與真實語音

語音識別英語開源協議:MIT #哼唱識別優化 #混合音頻VAD #即時語音分割

下載量 434

發布時間 : 3/6/2025

模型概述

HumAware-VAD通過使用自定義數據集微調Silero-VAD模型，提升在哼唱存在時的語音檢測準確率，減少哼唱被誤判為語音的情況。

模型特點

哼唱感知

專門針對哼唱與真實語音的區分進行優化，減少假陽性

即時推理

保持Silero-VAD的即時推理能力

抗噪聲優化

在混合音頻中更準確地分割語音，提升抗噪聲能力

模型能力

語音活動檢測

哼唱識別

音頻分割

使用案例

語音處理

自動語音識別預處理

在ASR系統中更準確地分割語音片段

減少哼唱導致的誤識別

語音通信過濾

在通話或語音通信中過濾非語音內容

提高通話質量

音頻分析

音樂與人聲分離

在混合音頻中區分人聲與背景音樂

更準確的音頻成分分析

🚀 [WIP]HumAware-VAD：支持哼唱檢測的語音活動檢測

HumAware-VAD 是一款經過微調的模型，它基於 Silero-VAD 進行訓練，能夠有效區分 哼唱聲與實際語音。常見的語音活動檢測（VAD）模型，包括 Silero-VAD，常常會將哼唱誤判為語音，導致語音分割不準確。而 HumAware-VAD 通過使用自定義數據集（HumSpeechBlend）進行訓練，顯著提高了在存在哼唱聲情況下的語音檢測準確性。

🚀 快速開始

🔹 安裝依賴

pip install torch torchaudio

🔹 加載模型

import torch

def load_humaware_vad(model_path="humaware_vad.jit"):
    model = torch.jit.load(model_path)
    model.eval()
    return model

vad_model = load_humaware_vad()

🔹 運行推理

import torchaudio

waveform, sample_rate = torchaudio.load("data/0000.wav")
out = vad_model(waveform)
print("VAD Output:", out)

✨ 主要特性

降低誤檢率：減少將哼唱誤判為語音的情況，降低誤檢率。
提高分割精度：在實際應用中，提升語音分割的準確性。
適應複雜場景：在包含音樂、背景噪音和人聲的複雜場景中，提升 VAD 性能。

📦 安裝指南

🔹 安裝依賴

pip install torch torchaudio

💻 使用示例

🔹 基礎用法

import torch

def load_humaware_vad(model_path="humaware_vad.jit"):
    model = torch.jit.load(model_path)
    model.eval()
    return model

vad_model = load_humaware_vad()

🔹 高級用法

import torchaudio

waveform, sample_rate = torchaudio.load("data/0000.wav")
out = vad_model(waveform)
print("VAD Output:", out)

📚 詳細文檔

模型詳情

屬性	詳情
基礎模型	Silero-VAD
微調數據集	HumSpeechBlend
格式	JIT (TorchScript)
框架	PyTorch
推理速度	即時

📄 許可證

本項目採用 MIT 許可證。

📄 引用

如果您使用了此模型，請按照以下格式進行引用：

@model{HumAwareVAD2025,
  author = {Sourabh Saini},
  title = {HumAware-VAD: Humming-Aware Voice Activity Detection},
  year = {2025},
  publisher = {Hugging Face},
  url = {https://huggingface.co/CuriousMonkey7/HumAware-VAD}
}