gender_cls_svm_ecapa_voxceleb开源模型 - 从音频轻松预测说话人性别！

首页

Gender Cls Svm Ecapa Voxceleb

由 griko 开发

基于SpeechBrain的ECAPA-TDNN说话人嵌入模型与SVM分类器，可从音频输入中预测说话人性别。

说话人处理其他开源协议:Apache-2.0 #高精度声纹分析 #ECAPA-TDNN嵌入 #多数据集验证

下载量 29

发布时间 : 11/9/2024

模型简介

本模型结合ECAPA-TDNN说话人嵌入与SVM分类器，用于从音频中识别说话人性别，支持二元分类（男/女）。

模型特点

高精度分类

在VoxCeleb2测试集上达到98.9%准确率，TIMIT测试集上达99.6%准确率

多数据集验证

已在VoxCeleb2、Mozilla Common Voice和TIMIT数据集上验证性能

优化分类器

通过Optuna进行200次调优的SVM分类器

自动预处理

支持自动音频格式转换（16kHz/单声道）和语音活动检测

模型能力

性别分类

说话人特征提取

音频处理

声纹分析

使用案例

语音分析

说话人性别识别

从音频中自动识别说话人性别

高准确率（VoxCeleb2: 98.9%）

语音数据集处理

数据集性别标注

为未标注的语音数据集自动添加性别标签

🚀 性别分类模型

本模型将SpeechBrain ECAPA - TDNN说话人嵌入模型与SVM分类器相结合，可根据音频输入预测说话人的性别。该模型在VoxCeleb2、Mozilla Common Voice v10.0和TIMIT数据集上进行了训练和评估。

🚀 快速开始

本模型可根据音频输入预测说话人性别，结合了先进的嵌入模型与分类器，在多数据集上表现良好。

✨ 主要特性

输入输出明确：输入音频文件（将转换为16kHz、单声道、单通道），输出性别预测结果（“male”或“female”）。
嵌入与分类结合：采用192维的SpeechBrain ECAPA - TDNN嵌入，搭配经Optuna优化（200次试验）的支持向量机分类器。
多数据集验证：在多个数据集上进行训练和评估，性能表现优异。

📦 安装指南

你可以直接从GitHub安装该软件包：

pip install git+https://github.com/griko/voice-gender-classification.git

💻 使用示例

基础用法

from voice_gender_classification import GenderClassificationPipeline

# 加载管道
classifier = GenderClassificationPipeline.from_pretrained(
    "griko/gender_cls_svm_ecapa_voxceleb"
)

# 单文件预测
result = classifier("path/to/audio.wav")
print(result)  # ["female"] or ["male"]

# 批量预测
results = classifier(["audio1.wav", "audio2.wav"])
print(results)  # ["female", "male", "female"]

📚 详细文档

模型详情

属性	详情
输入	音频文件（将转换为16kHz、单声道、单通道）
输出	性别预测（“male”或“female”）
说话人嵌入	192维的SpeechBrain ECAPA - TDNN嵌入
分类器	经Optuna优化（200次试验）的支持向量机
性能	VoxCeleb2测试集：准确率98.9%，F1分数0.9885；Mozilla Common Voice v10.0英语验证测试集：准确率92.3%；TIMIT测试集：准确率99.6%

训练数据

本模型在VoxCeleb2数据集上进行训练：

训练集：1691名说话人（845名女性，846名男性）
验证集：785名说话人（396名女性，389名男性）
测试集：1647名说话人（828名女性，819名男性）
各集合间无说话人重叠
音频预处理：
- 转换为WAV格式，单声道，16kHz采样率，256 kp/s比特率
- 应用SileroVAD进行语音活动检测，取第一个有声片段

🔧 技术细节

本模型基于SpeechBrain ECAPA - TDNN说话人嵌入模型与SVM分类器构建。在训练过程中，使用了VoxCeleb2等数据集，并进行了严格的音频预处理。通过Optuna对SVM分类器进行了200次试验的优化，以提高模型性能。在多个数据集上的测试结果表明，该模型在性别分类任务上具有较高的准确率和F1分数。

📄 许可证

本项目采用Apache - 2.0许可证。

⚠️ 重要提示

本模型基于YouTube采访中的名人声音进行训练。
在不同的音频质量或录音条件下，模型性能可能会有所不同。
本模型仅用于二元性别分类。

📖 引用

如果您在研究中使用了本模型，请引用：

@misc{koushnir2025vanpyvoiceanalysisframework,
      title={VANPY: Voice Analysis Framework}, 
      author={Gregory Koushnir and Michael Fire and Galit Fuhrmann Alpert and Dima Kagan},
      year={2025},
      eprint={2502.17579},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2502.17579}, 
}