pyannote - セグメンテーション - 30オープンソースオーディオ処理モデル、音声活動と複数話者の状況を無料で検出

ホーム

Pyannote Segmentation 30

collinbarnwellによって開発

これは音声処理用の話者分割モデルで、音声活動、重複音声、複数話者を検出できます。

話者の処理

PyTorch

オープンソースライセンス:MIT #複数話者重複検出 #音声活動認識 #リアルタイム音声処理

ダウンロード数 873

リリース時間 : 2/9/2024

モデル概要

このモデルは16kHzサンプリングの10秒モノラル音声を処理し、7つのカテゴリを含む話者分割結果を出力します。音声活動検出と重複音声検出をサポートしています。

モデル特徴

複数話者検出

最大3人の話者とその重複部分を同時に検出できます。

短時間処理

10秒の音声クリップの分割タスクに特化して最適化されています。

マルチタスク出力

音声活動検出と重複音声検出のタスクを同時にサポートします。

モデル能力

話者分割

音声活動検出

重複音声検出

複数話者認識

使用事例

会議記録

会議発言者識別

会議録音中の異なる発言者とその発言時間帯を自動識別

会議記録効率を向上させ、自動的に発言記録を生成

音声分析

重複音声検出

会話中の複数人が同時に話している状況を検出

重複音声シナリオでの音声認識システムの性能改善

🚀 "Powerset"話者セグメンテーション

このオープンソースモデルは、16kHzでサンプリングされた10秒のモノラルオーディオを入力とし、話者のダイアリゼーションを (num_frames, num_classes) の行列として出力します。ここでの7つのクラスは、非発話、話者 #1、話者 #2、話者 #3、話者 #1 と #2、話者 #1 と #3、話者 #2 と #3 です。このモデルを活用することで、音声データ内の話者を高精度に区別することができます。

Example output

🚀 クイックスタート

このオープンソースモデルを本番環境で使用していますか？
私たちのコンサルティングサービスを利用して、そのポテンシャルを最大限に引き出しましょう。

💻 使用例

基本的な使用法

# waveform (first row)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate 

# powerset multi-class encoding (second row)
powerset_encoding = model(waveform)

# multi-label encoding (third row)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高度な使用法

このモデルの背後にある様々な概念については、この論文で詳細に説明されています。

このモデルは、Séverin Baroudiによってpyannote.audio 3.0.0 を使用し、AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE、およびVoxConverseのトレーニングセットを組み合わせてトレーニングされました。

このコンパニオンリポジトリは、Alexis Plaquet によって作成され、独自のデータでこのようなモデルをトレーニングまたは微調整する方法についての説明も提供しています。

📦 インストール

必要条件

pip install pyannote.audio を使用して、pyannote.audio 3.0 をインストールします。
pyannote/segmentation-3.0 のユーザー条件を受け入れます。
hf.co/settings/tokens でアクセストークンを作成します。

モデルのインスタンス化

# instantiate the model
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

話者ダイアリゼーション

このモデルは、単独では全録音の話者ダイアリゼーションを実行することはできません（10秒のチャンクのみを処理します）。

追加の話者埋め込みモデルを使用して全録音の話者ダイアリゼーションを実行する pyannote/speaker - diarization - 3.0 パイプラインを参照してください。

音声アクティビティ検出

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` is a pyannote.core.Annotation instance containing speech regions

重複音声検出

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove overlapped speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-overlapped speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` is a pyannote.core.Annotation instance containing overlapped speech regions

📄 ライセンス

このモデルはMITライセンスの下で提供されています。

⚠️ 重要提示

収集された情報は、pyannote.audioのユーザーベースに関するより良い知識を獲得し、そのメンテナがさらに改善するのに役立ちます。このモデルはMITライセンスを使用し、常にオープンソースのままですが、私たちは時折、pyannoteに関するプレミアムモデルや有料サービスについてメールでご連絡することがあります。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}