gender_cls_svm_ecapa_voxcelebオープンソースモデル - 音声から簡単に話者の性別を予測！

ホーム

Gender Cls Svm Ecapa Voxceleb

grikoによって開発

SpeechBrainのECAPA-TDNN話者埋め込みモデルとSVM分類器を基に、音声入力から話者の性別を予測します。

話者の処理その他オープンソースライセンス:Apache-2.0 #高精度声紋分析 #ECAPA-TDNN埋め込み #複数データセット検証

ダウンロード数 29

リリース時間 : 11/9/2024

モデル概要

本モデルはECAPA-TDNN話者埋め込みとSVM分類器を組み合わせ、音声から話者の性別を識別するために使用され、二項分類（男性/女性）をサポートします。

モデル特徴

高精度分類

VoxCeleb2テストセットで98.9%の精度、TIMITテストセットで99.6%の精度を達成

複数データセット検証

VoxCeleb2、Mozilla Common Voice、TIMITデータセットで性能を検証済み

最適化分類器

Optunaによる200回のチューニングを経たSVM分類器

自動前処理

自動音声フォーマット変換（16kHz/モノラル）と音声活動検出をサポート

モデル能力

性別分類

話者特徴抽出

音声処理

声紋分析

使用事例

音声分析

話者性別識別

音声から話者の性別を自動識別

高精度（VoxCeleb2: 98.9%）

音声データセット処理

データセット性別ラベリング

ラベル付けされていない音声データセットに自動的に性別ラベルを追加

🚀 性別分類モデル

このモデルは、SpeechBrainのECAPA - TDNN話者埋め込みモデルとSVM分類器を組み合わせて、音声入力から話者の性別を予測します。このモデルは、VoxCeleb2、Mozilla Common Voice v10.0、およびTIMITデータセットで訓練および評価されました。

🚀 クイックスタート

このモデルは音声入力から話者の性別を予測するために、SpeechBrainのECAPA - TDNN話者埋め込みモデルとSVM分類器を組み合わせています。以下に、インストール方法と使用例を示します。

✨ 主な機能

音声入力から話者の性別を予測します。
192次元のECAPA - TDNN埋め込みを使用して話者の特徴を抽出します。
Optunaで最適化されたSVM分類器を使用して性別を分類します。

📦 インストール

以下のコマンドを使用して、パッケージをGitHubから直接インストールできます。

pip install git+https://github.com/griko/voice-gender-classification.git

💻 使用例

基本的な使用法

from voice_gender_classification import GenderClassificationPipeline

# パイプラインをロード
classifier = GenderClassificationPipeline.from_pretrained(
    "griko/gender_cls_svm_ecapa_voxceleb"
)

# 単一ファイルの予測
result = classifier("path/to/audio.wav")
print(result)  # ["female"] or ["male"]

# バッチ予測
results = classifier(["audio1.wav", "audio2.wav"])
print(results)  # ["female", "male", "female"]

📚 ドキュメント

モデルの詳細

属性	详情
入力	音声ファイル（16kHz、モノラル、単チャンネルに変換されます）
出力	性別予測（"male" または "female"）
話者埋め込み	SpeechBrainの192次元ECAPA - TDNN埋め込み
分類器	Optunaで最適化されたサポートベクターマシン（200試行）
性能	VoxCeleb2テストセット: 98.9%の精度、0.9885のF1スコア Mozilla Common Voice v10.0英語検証済みテストセット: 92.3%の精度 TIMITテストセット: 99.6%の精度

訓練データ

このモデルはVoxCeleb2データセットで訓練されました。

訓練セット: 1,691人の話者（845人の女性、846人の男性）
検証セット: 785人の話者（396人の女性、389人の男性）
テストセット: 1,647人の話者（828人の女性、819人の男性）
セット間で話者の重複はありません。
音声前処理:
- WAV形式、単チャンネル、16kHzサンプリングレート、256 kp/sビットレートに変換。
- SileroVADを使用して音声アクティビティ検出を行い、最初の有声セグメントを取得。

制限事項

このモデルはYouTubeインタビューの有名人の声で訓練されています。
異なる音質や録音条件では性能が異なる場合があります。
2値性別分類のみを目的として設計されています。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

引用

もしあなたの研究でこのモデルを使用する場合は、以下を引用してください。

@misc{koushnir2025vanpyvoiceanalysisframework,
      title={VANPY: Voice Analysis Framework}, 
      author={Gregory Koushnir and Michael Fire and Galit Fuhrmann Alpert and Dima Kagan},
      year={2025},
      eprint={2502.17579},
      archivePrefix={arXiv},
      primaryClass={cs.SD},
      url={https://arxiv.org/abs/2502.17579}, 
}