voice - gender - classifier開源語音性別分類模型 - 免費部署精準識別語音性別

首頁

Voice Gender Classifier

由JaesungHuh開發

基於ECAPA-TDNN架構的預訓練模型，用於從人類語音中分類性別

音頻分類

Transformers

開源協議:MIT #ECAPA-TDNN微調 #高精度性別識別 #說話人特徵分析

下載量 14.01k

發布時間 : 5/13/2024

模型概述

該模型使用預訓練的ECAPA-TDNN架構進行微調，專門用於從語音中識別說話者的性別。在VoxCeleb1測試集上達到98.7%的準確率。

模型特點

高準確率

在VoxCeleb1測試集上達到98.7%的準確率

基於ECAPA-TDNN

使用最先進的說話人驗證模型架構

簡單易用

提供直接的預測接口，只需輸入音頻文件即可獲取結果

模型能力

語音性別分類

音頻特徵提取

使用案例

語音分析

說話者性別識別

從語音片段中識別說話者的性別

98.7%的準確率(VoxCeleb1測試集)

語音處理預處理

語音數據分類

在語音處理流程中預先分類語音性別

🚀 語音性別分類器

本項目包含了使用預訓練的人類語音性別分類器進行推理的代碼。你還可以嘗試😎Huggingface在線演示。

🚀 快速開始

安裝指南

📦 安裝步驟

首先，克隆原始的GitHub倉庫：

git clone https://github.com/JaesungHuh/voice-gender-classifier.git

然後通過pip安裝所需的包：

cd voice-gender-classifier
pip install -r requirements.txt

💻 使用示例

基礎用法

import torch

from model import ECAPA_gender

# 你可以直接從huggingface模型中心下載模型
model = ECAPA_gender.from_pretrained("JaesungHuh/voice-gender-classifier")
model.eval()

# 如果你使用GPU... 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# 加載音頻文件並使用predict函數直接獲取輸出
example_file = "data/00001.wav"
with torch.no_grad():
    output = model.predict(example_file, device=device)
    print("Gender : ", output)

📚 詳細文檔

預訓練權重

對於需要預訓練權重的用戶，請從這裡下載。

訓練細節

最先進的說話人驗證模型已經能夠很好地表示說話人的性別特徵。

我使用了來自TaoRuijie倉庫的預訓練ECAPA - TDNN模型，添加了一個線性層以構建二分類器，並使用VoxCeleb2開發集對模型進行了微調。

該模型在VoxCeleb1識別測試集上達到了98.7% 的準確率。

🔧 技術細節

本項目使用了先進的說話人驗證模型ECAPA - TDNN作為基礎，通過添加線性層構建了一個語音性別分類器。在訓練過程中，使用了VoxCeleb2開發集進行微調，使得模型在VoxCeleb1識別測試集上取得了較好的效果。

📄 許可證

本項目採用MIT許可證。

⚠️ 重要提示

我想提醒的是，我用於訓練此模型的數據集（VoxCeleb）可能無法代表全球人類群體。在使用此模型時，請小心可能存在的意外偏差。

📖 參考資料

原始GitHub倉庫
我修改了來自TaoRuijie倉庫的模型架構。
有關ECAPA - TDNN的更多詳細信息，請查看論文。

屬性	詳情
標籤	pytorch_model_hub_mixin、model_hub_mixin、gender - classification、VoxCeleb
許可證	MIT
數據集	ProgramComputer/voxceleb
任務類型	音頻分類