speaker-diarization-2.5オープンソース話者分割モデル - より優れた性能で話者を正確に識別

ホーム

Speaker Diarization 2.5

Willy030125によって開発

pyannote/speaker-diarization-3.0をベースに改良した話者分割モデル。speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のテストでより優れた性能を発揮

話者の処理オープンソースライセンス:MIT #マルチスピーカー分割 #オーバーラップ音声検出 #自動話者数カウント

ダウンロード数 26

リリース時間 : 3/24/2025

モデル概要

音声中の話者分割と変更検出に使用可能。自動音声活動検出、オーバーラップ音声検出、話者数自動検出をサポート

モデル特徴

自動話者数検出

手動で話者数を指定する必要がなく、モデルが自動検出可能

改良された話者埋め込み

speechbrain/spkrec-ecapa-voxcelebを使用した話者埋め込みにより、特定のシナリオでより優れた性能

完全自動処理

手動の音声活動検出やハイパーパラメータ調整が不要

GPUアクセラレーション対応

GPU処理をサポート、リアルタイムファクター約2.5%

モデル能力

話者分割

話者変更検出

音声活動検出

オーバーラップ音声検出

自動話者数推定

使用事例

会議記録

会議記録分析

会議中の異なる発言者の音声セグメントを自動識別

DER 12.3% (AISHELL-4データセット)

音声文字起こし

自動音声認識前処理

ASRシステムに話者分割情報を提供

メディア分析

放送番組分析

放送番組中の司会者とゲストの発話状況を分析

DER 7.8% (REPEREデータセット)

🚀 話者分離 2.5

このオープンソースモデルは、音声データにおける話者分離タスクを解決するためのパイプラインです。pyannote/speaker-diarization-3.0 をベースに改良されており、様々なデータセットでのベンチマークテストで良好な性能を示しています。

🚀 クイックスタート

このオープンソースモデルを本番環境で使用する場合、より良い性能と高速なオプションを提供する pyannoteAI の利用を検討してください。

✨ 主な機能

話者分離（Speaker Diarization）: 音声データ内の異なる話者を識別し、それぞれの発話区間を特定します。
話者変更検出（Speaker Change Detection）: 話者が切り替わるタイミングを検出します。
音声活動検出（Voice Activity Detection）: 音声が存在する区間を検出します。
重複音声検出（Overlapped Speech Detection）: 複数の話者が同時に話している区間を検出します。

📦 インストール

pip install pyannote.audio を実行して、pyannote.audio 3.0 をインストールします。
pyannote/segmentation-3.0 のユーザー条件を受け入れます。
hf.co/settings/tokens でアクセストークンを作成します。

💻 使用例

基本的な使用法

# パイプラインをインスタンス化する
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "Willy030125/speaker-diarization-2.5",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 音声ファイルに対してパイプラインを実行する
diarization = pipeline("audio.wav")

# 話者分離の結果をRTTM形式でディスクに保存する
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高度な使用法

GPUでの処理

pyannote.audio のパイプラインはデフォルトでCPUで実行されます。以下のコードを使用してGPUに送信することができます。

import torch
pipeline.to(torch.device("cuda"))

1つのNvidia Tesla V100 SXM2 GPU（ニューラル推論部分）と1つのIntel Cascade Lake 6248 CPU（クラスタリング部分）を使用した場合、リアルタイム係数は約2.5%です。つまり、1時間の会話を処理するのに約1.5分かかります。

メモリからの処理

音声ファイルを事前にメモリにロードすることで、処理速度を向上させることができます。

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

進捗の監視

パイプラインの進捗を監視するためのフックが利用可能です。

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

話者数の制御

話者数が事前にわかっている場合は、num_speakers オプションを使用することができます。

diarization = pipeline("audio.wav", num_speakers=2)

また、min_speakers と max_speakers オプションを使用して、話者数の下限と上限を指定することもできます。

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 詳細ドキュメント

ベンチマーク

このパイプラインは、多数のデータセットでベンチマークテストが行われています。処理は完全に自動化されており、手動による音声活動検出や話者数の指定、内部モデルの微調整やパイプラインのハイパーパラメータの調整は必要ありません。

ベンチマーク	DER%	FA%	Miss%	Conf%	期待出力	ファイルレベルの評価
AISHELL-4	12.3	3.8	4.4	4.1	RTTM	eval
AliMeeting (channel 1)	24.3	4.4	10.0	9.9	RTTM	eval
AMI (headset mix, only_words)	19.0	3.6	9.5	5.9	RTTM	eval
AMI (array1, channel 1, only_words)	22.2	3.8	11.2	7.3	RTTM	eval
AVA-AVD	49.1	10.8	15.7	22.5	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	24.6	5.8	8.0	10.7	RTTM	eval
REPERE (phase 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 ライセンス

このモデルはMITライセンスの下で公開されています。

⚠️ 重要提示

収集された情報は、pyannote.audioのユーザーベースに関するより良い知識を獲得し、メンテナーがさらに改善するのに役立ちます。このパイプラインはMITライセンスを使用しており、常にオープンソースのままですが、時折、pyannoteに関するプレミアムパイプラインや有料サービスについてメールでお知らせすることがあります。

🔖 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}