pyannote-segmentationオープンソース話者分割モデル - 10秒の音声を処理し、複数話者と重なりの状況を識別する

ホーム

Pyannote Segmentation

it-just-worksによって開発

これは冪集合エンコーディングに基づくスピーカーセグメンテーションモデルで、10秒の音声クリップを処理し、複数のスピーカーとそのオーバーラップ状況を識別できます。

話者の処理

PyTorch

オープンソースライセンス:MIT #マルチスピーカーオーバーラップ検出 #音声アクティビティセグメンテーション #リアルタイム音声処理

ダウンロード数 771

リリース時間 : 4/10/2025

モデル概要

このモデルは音声中のスピーカーセグメンテーションに使用され、最大3人のスピーカーとそのオーバーラップ状況を検出し、7つの可能なスピーカー組み合わせ状態を出力します。

モデル特徴

冪集合エンコーディング

独自の冪集合エンコーディング方式を使用してマルチスピーカーシーンを処理し、単一スピーカーとオーバーラップスピーカーを同時に識別可能

マルチタスクサポート

同一モデルでスピーカーセグメンテーション、音声アクティビティ検出、オーバーラップ音声検出が可能

効率的な処理

10秒音声クリップに最適化されており、リアルタイムまたはバッチ処理に適している

モデル能力

スピーカーセグメンテーション

音声アクティビティ検出

オーバーラップ音声検出

マルチスピーカー識別

使用事例

会議記録

会議発言記録

会議中の異なる発言者とその発言時間を自動識別

各発言者の音声セグメントを正確に分割

音声分析

オーバーラップ音声検出

会話中の複数人が同時に話している状況を検出

オーバーラップ音声セグメントを識別

🚀 🎹 "Powerset"話者セグメンテーション

このオープンソースモデルは、16kHzでサンプリングされた10秒のモノラルオーディオを入力として受け取り、話者分離を (num_frames, num_classes) の行列として出力します。ここでの7つのクラスは、非音声、話者 #1、話者 #2、話者 #3、話者 #1 と #2、話者 #1 と #3、話者 #2 と #3 です。このモデルを活用することで、音声データ内の話者を高精度に区別することが可能です。

Example output

🚀 クイックスタート

本番環境でこのオープンソースモデルを使用していますか？
より良く、より高速なオプションを求めるなら、pyannoteAI への切り替えを検討してください。

✨ 主な機能

このモデルは、10秒間の16kHzモノラルオーディオを入力として、話者分離結果を行列形式で出力します。具体的には、7つのクラスを持つ (num_frames, num_classes) 行列として出力され、各クラスは異なる話者の組み合わせや非音声区間を表します。

📦 インストール

pip install pyannote.audio を使用して、pyannote.audio 3.0 をインストールします。
pyannote/segmentation-3.0 のユーザー条件を承認します。
hf.co/settings/tokens でアクセストークンを作成します。

💻 使用例

基本的な使用法

# waveform (first row)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# powerset multi-class encoding (second row)
powerset_encoding = model(waveform)

# multi-label encoding (third row)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高度な使用法

話者分離

このモデルは、それ単独では全録音の話者分離を行うことはできません（10秒のチャンクのみ処理します）。
追加の話者埋め込みモデルを使用して全録音の話者分離を行う pyannote/speaker-diarization-3.0 パイプラインを参照してください。

音声アクティビティ検出

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` is a pyannote.core.Annotation instance containing speech regions

重複音声検出

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove overlapped speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-overlapped speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` is a pyannote.core.Annotation instance containing overlapped speech regions

📚 ドキュメント

このモデルの背後にある様々な概念については、この論文で詳細に説明されています。

🔧 技術詳細

このモデルは、Séverin Baroudiによって pyannote.audio 3.0.0 を使用して、AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE、およびVoxConverseのトレーニングセットの組み合わせでトレーニングされました。

Alexis Plaquet によるこの関連リポジトリには、独自のデータでこのようなモデルをトレーニングまたは微調整する方法に関する指示も記載されています。

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}