オープンソースのsegmentation音声処理モデル - 音声アクティビティ、重なり、話者分割検出をサポート

ホーム

Segmentation

pyannoteによって開発

音声活動検出、重複音声検出、話者分割のための音声処理モデル

話者の処理

PyTorch

オープンソースライセンス:MIT #話者分割 #重複音声検出 #音声活動検出

ダウンロード数 9.2M

リリース時間 : 3/2/2022

モデル概要

このモデルは主に音声中の話者分割タスクを処理するために使用され、音声活動検出(VAD)、重複音声検出(OSD)、および話者再分割を含みます。音声中の音声領域を識別し、重複する音声部分を検出し、話者分割結果を最適化することができます。

モデル特徴

エンドツーエンド話者分割

完全なエンドツーエンドソリューションを提供し、生の音声入力を直接処理して分割結果を出力します

重複音声検出

音声中の複数の話者が同時に話している重複領域を正確に識別できます

調整可能なパラメータ

活性化閾値、最小持続時間など、さまざまなアプリケーションシナリオに適応するための調整可能なパラメータを提供します

マルチタスクサポート

音声活動検出、重複音声検出、再分割など、複数の関連タスクをサポートします

モデル能力

音声活動検出

重複音声検出

話者分割

音声処理

話者ロギング

使用事例

会議記録

会議録音分析

会議録音中の異なる発言者の音声領域を自動的に識別します

会議記録と転写の精度を向上させます

音声分析

重複音声検出

会話中の複数の話者が同時に話している状況を検出します

複雑な会話シーンの理解に役立ちます

音声処理

話者分割最適化

既存の話者分割結果を最適化処理します

分割精度と正確性を向上させます

🚀 話者セグメンテーション

このオープンソースモデルは、音声データにおける話者のセグメンテーションを行うためのものです。音声活動検出、重複話者検出、再セグメンテーションなどの機能を提供します。

🚀 クイックスタート

本番環境でこのオープンソースモデルを使用していますか？より良く、より速いオプションを求めるなら、pyannoteAI への切り替えを検討してください。

✨ 主な機能

話者セグメンテーション
音声活動検出
重複話者検出
再セグメンテーション

📦 インストール

このモデルは pyannote.audio 2.1.1 に依存しています。インストール手順を参照してください。

💻 使用例

基本的な使用法

# 1. hf.co/pyannote/segmentation にアクセスし、ユーザー条件を受け入れる
# 2. hf.co/settings/tokens にアクセスし、アクセストークンを作成する
# 3. 事前学習済みモデルをインスタンス化する
from pyannote.audio import Model
model = Model.from_pretrained("pyannote/segmentation", 
                              use_auth_token="ACCESS_TOKEN_GOES_HERE")

高度な使用法

音声活動検出

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # onset/offset アクティベーション閾値
  "onset": 0.5, "offset": 0.5,
  # これより短い音声領域を削除する
  "min_duration_on": 0.0,
  # これより短い非音声領域を埋める
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` は音声領域を含む pyannote.core.Annotation インスタンスです

重複話者検出

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` は重複話者領域を含む pyannote.core.Annotation インスタンスです

再セグメンテーション

from pyannote.audio.pipelines import Resegmentation
pipeline = Resegmentation(segmentation=model, 
                          diarization="baseline")
pipeline.instantiate(HYPER_PARAMETERS)
resegmented_baseline = pipeline({"audio": "audio.wav", "baseline": baseline})
# `baseline` は pyannote.core.Annotation インスタンスとして提供する必要があります

生のスコア取得

from pyannote.audio import Inference
inference = Inference(model)
segmentation = inference("audio.wav")
# `segmentation` は生のセグメンテーションスコアを含む pyannote.core.SlidingWindowFeature インスタンスです

📚 ドキュメント

Example

🔧 技術詳細

論文 "End-to-end speaker segmentation for overlap-aware resegmentation" の結果を再現するには、以下のハイパーパラメータで pyannote/segmentation@Interspeech2021 を使用します。

音声活動検出	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.684	0.577	0.181	0.037
DIHARD3	0.767	0.377	0.136	0.067
VoxConverse	0.767	0.713	0.182	0.501

重複話者検出	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.448	0.362	0.116	0.187
DIHARD3	0.430	0.320	0.091	0.144
VoxConverse	0.587	0.426	0.337	0.112

VBx の再セグメンテーション	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.542	0.527	0.044	0.705
DIHARD3	0.592	0.489	0.163	0.182
VoxConverse	0.537	0.724	0.410	0.563

予想される出力（および VBx ベースライン）は、/reproducible_research サブディレクトリにも提供されています。

📄 ライセンス

このモデルは MIT ライセンスの下で提供されています。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}