gender_cls_svm_ecapa_voxceleb開源模型 - 從音頻輕鬆預測說話人性別！

首頁

Gender Cls Svm Ecapa Voxceleb

由griko開發

基於SpeechBrain的ECAPA-TDNN說話人嵌入模型與SVM分類器，可從音頻輸入中預測說話人性別。

說話人處理其他開源協議:Apache-2.0 #高精度聲紋分析 #ECAPA-TDNN嵌入 #多數據集驗證

下載量 29

發布時間 : 11/9/2024

模型概述

本模型結合ECAPA-TDNN說話人嵌入與SVM分類器，用於從音頻中識別說話人性別，支持二元分類（男/女）。

模型特點

高精度分類

在VoxCeleb2測試集上達到98.9%準確率，TIMIT測試集上達99.6%準確率

多數據集驗證

已在VoxCeleb2、Mozilla Common Voice和TIMIT數據集上驗證性能

優化分類器

通過Optuna進行200次調優的SVM分類器

自動預處理

支持自動音頻格式轉換（16kHz/單聲道）和語音活動檢測

模型能力

性別分類

說話人特徵提取

音頻處理

聲紋分析

使用案例

語音分析

說話人性別識別

從音頻中自動識別說話人性別

高準確率（VoxCeleb2: 98.9%）

語音數據集處理

數據集性別標註

為未標註的語音數據集自動添加性別標籤

🚀 性別分類模型

本模型將SpeechBrain ECAPA - TDNN說話人嵌入模型與SVM分類器相結合，可根據音頻輸入預測說話人的性別。該模型在VoxCeleb2、Mozilla Common Voice v10.0和TIMIT數據集上進行了訓練和評估。

🚀 快速開始

本模型可根據音頻輸入預測說話人性別，結合了先進的嵌入模型與分類器，在多數據集上表現良好。

✨ 主要特性

輸入輸出明確：輸入音頻文件（將轉換為16kHz、單聲道、單通道），輸出性別預測結果（“male”或“female”）。
嵌入與分類結合：採用192維的SpeechBrain ECAPA - TDNN嵌入，搭配經Optuna優化（200次試驗）的支持向量機分類器。
多數據集驗證：在多個數據集上進行訓練和評估，性能表現優異。

📦 安裝指南

你可以直接從GitHub安裝該軟件包：

pip install git+https://github.com/griko/voice-gender-classification.git

💻 使用示例

基礎用法

from voice_gender_classification import GenderClassificationPipeline

# 加載管道
classifier = GenderClassificationPipeline.from_pretrained(
    "griko/gender_cls_svm_ecapa_voxceleb"
)

# 單文件預測
result = classifier("path/to/audio.wav")
print(result)  # ["female"] or ["male"]

# 批量預測
results = classifier(["audio1.wav", "audio2.wav"])
print(results)  # ["female", "male", "female"]

📚 詳細文檔

模型詳情

屬性	詳情
輸入	音頻文件（將轉換為16kHz、單聲道、單通道）
輸出	性別預測（“male”或“female”）
說話人嵌入	192維的SpeechBrain ECAPA - TDNN嵌入
分類器	經Optuna優化（200次試驗）的支持向量機
性能	VoxCeleb2測試集：準確率98.9%，F1分數0.9885；Mozilla Common Voice v10.0英語驗證測試集：準確率92.3%；TIMIT測試集：準確率99.6%

訓練數據

本模型在VoxCeleb2數據集上進行訓練：

訓練集：1691名說話人（845名女性，846名男性）
驗證集：785名說話人（396名女性，389名男性）
測試集：1647名說話人（828名女性，819名男性）
各集合間無說話人重疊
音頻預處理：
- 轉換為WAV格式，單聲道，16kHz採樣率，256 kp/s比特率
- 應用SileroVAD進行語音活動檢測，取第一個有聲片段

🔧 技術細節

本模型基於SpeechBrain ECAPA - TDNN說話人嵌入模型與SVM分類器構建。在訓練過程中，使用了VoxCeleb2等數據集，並進行了嚴格的音頻預處理。通過Optuna對SVM分類器進行了200次試驗的優化，以提高模型性能。在多個數據集上的測試結果表明，該模型在性別分類任務上具有較高的準確率和F1分數。

📄 許可證

本項目採用Apache - 2.0許可證。

⚠️ 重要提示

本模型基於YouTube採訪中的名人聲音進行訓練。
在不同的音頻質量或錄音條件下，模型性能可能會有所不同。
本模型僅用於二元性別分類。

📖 引用

如果您在研究中使用了本模型，請引用：

@misc{koushnir2025vanpyvoiceanalysisframework,
      title={VANPY: Voice Analysis Framework}, 
      author={Gregory Koushnir and Michael Fire and Galit Fuhrmann Alpert and Dima Kagan},
      year={2025},
      eprint={2502.17579},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2502.17579}, 
}