Speaker - Diarization - v1オープンソース話者分割モデル - 10秒のモノラルオーディオを無料で処理して結果を出力

ホーム

Speaker Diarization V1

objects76によって開発

これはパワーセットマルチクラス交差エントロピー損失に基づくスピーカーセグメンテーションモデルで、10秒のモノラル音声を処理し、スピーカーセグメンテーション結果を出力できます。

話者の処理

PyTorch

オープンソースライセンス:MIT #マルチスピーカーオーバーラップ検出 #リアルタイム音声セグメンテーション #会議シーン最適化

ダウンロード数 13

リリース時間 : 9/9/2024

モデル概要

このモデルは主に音声中のスピーカーセグメンテーション、音声活動検出、およびオーバーラップ音声検出に使用され、マルチスピーカーシーンでの音声分析をサポートします。

モデル特徴

パワーセットマルチクラスエンコーディング

パワーセットマルチクラス交差エントロピー損失を使用してトレーニングされ、複数のスピーカーの音声セグメンテーションを同時に処理できます。

マルチスピーカーサポート

最大3人のスピーカーとそのオーバーラップ音声状況を識別できます。

複数データセットの統合

トレーニングデータにはAISHELL、AliMeeting、AMIなどの有名なデータセットが統合されています。

モデル能力

スピーカーセグメンテーション

音声活動検出

オーバーラップ音声検出

マルチスピーカー識別

使用事例

音声分析

会議記録分析

会議録音中の異なる発言者の音声段落を自動識別

会議記録効率を向上させ、発言者を自動的に区別

音声書き起こし前処理

音声認識前にスピーカーセグメンテーションを実施

書き起こし精度を向上させ、スピーカー注釈を実現

音声処理

オーバーラップ音声検出

音声中の複数人が同時に話している部分を識別

対話インタラクションパターンの分析を支援

🚀 "Powerset"話者セグメンテーション

このオープンソースモデルは、16kHzでサンプリングされた10秒間のモノラルオーディオを入力として受け取り、話者分離の結果を (num_frames, num_classes) の行列として出力します。ここでの7つのクラスは、非発話、話者 #1、話者 #2、話者 #3、話者 #1 と #2、話者 #1 と #3、話者 #2 と #3 です。

このモデルを本番環境で使用する場合は、より良いオプションや高速な処理を得るために、pyannoteAI への切り替えを検討してください。

出力例

🚀 クイックスタート

必要条件

pip install pyannote.audio を実行して、pyannote.audio 3.0 をインストールします。
pyannote/segmentation-3.0 のユーザー条件を承認します。
hf.co/settings/tokens でアクセストークンを作成します。

モデルの使用方法

# モデルのインスタンス化
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

✨ 主な機能

話者分離

このモデルは、それ単体では全録音データの話者分離を行うことはできません（10秒のチャンクのみを処理します）。全録音データの話者分離を行うには、追加の話者埋め込みモデルを使用する pyannote/speaker-diarization-3.0 パイプラインを参照してください。

音声アクティビティ検出

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # これより短い音声領域を削除します。
  "min_duration_on": 0.0,
  # これより短い非音声領域を埋めます。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` は音声領域を含む pyannote.core.Annotation インスタンスです。

重複音声検出

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # これより短い重複音声領域を削除します。
  "min_duration_on": 0.0,
  # これより短い非重複音声領域を埋めます。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` は重複音声領域を含む pyannote.core.Annotation インスタンスです。

💻 使用例

基本的な使用法

# 波形（1行目）
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate)

# powerset 多クラスエンコーディング（2行目）
powerset_encoding = model(waveform)

# マルチラベルエンコーディング（3行目）
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk,
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

📚 ドキュメント

このモデルの背後にある様々な概念については、この論文で詳細に説明されています。

このモデルは、Séverin Baroudi によって pyannote.audio 3.0.0 を使用して、AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE、および VoxConverse のトレーニングセットを組み合わせて学習されました。

Alexis Plaquet によるこのコンパニオンリポジトリでは、独自のデータでこのようなモデルを学習または微調整する方法についても説明されています。

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

🔖 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}