オープンソースのSegmentation話者分割モデル - 音声活動や重なり音声検出などのタスクに無料で利用可能

ホーム

Segmentation

salmanshahidによって開発

これはエンドツーエンドの話者セグメンテーションモデルで、音声活動検出、オーバーラップ音声検出、リセグメンテーションタスクに使用されます。

話者の処理

TensorBoard

オープンソースライセンス:MIT #オーバーラップ音声検出 #エンドツーエンドセグメンテーション #話者リセグメンテーション

ダウンロード数 1,790

リリース時間 : 11/16/2024

モデル概要

このモデルは主に音声中の話者セグメンテーション問題を処理するために使用され、音声活動を検出し、オーバーラップ音声を識別し、話者セグメンテーション結果を最適化することをサポートします。

モデル特徴

エンドツーエンド話者セグメンテーション

エンドツーエンドアプローチで話者セグメンテーション問題を処理し、従来のプロセスを簡素化

オーバーラップ音声検出

音声中のオーバーラップした話者音声を識別可能

リセグメンテーション最適化

既存の話者セグメンテーション結果を最適化改善可能

マルチデータセットトレーニング

AMI、DIHARD3、VoxConverseなどの複数のデータセットでトレーニング

モデル能力

音声活動検出

オーバーラップ音声検出

話者セグメンテーション最適化

音声分析

使用事例

音声分析

会議記録分析

会議録音中の話者切り替えとオーバーラップ音声を分析するために使用

異なる話者の音声セグメントを正確に識別可能

音声書き起こし前処理

音声認識システムにより正確な話者セグメンテーション結果を提供

書き起こしシステムの話者識別能力を向上

音声処理

音声編集支援

音声編集者が異なる話者の音声セグメントを迅速に特定するのを支援

音声編集効率を向上

🚀 pyannote.audio // 話者セグメンテーション

pyannote.audioは、音声データにおける話者セグメンテーションを行うためのモデルです。オーバーラップ音声の検出や再セグメンテーションなど、多様な音声処理タスクに対応しています。

Example

End-to-end speaker segmentation for overlap-aware resegmentation のモデルで、Hervé BredinとAntoine Laurentによるものです。

現在開発中のpyannote.audio 2.0に依存しています。インストール手順を参照してください。

🚀 クイックスタート

このモデルは、音声データの話者セグメンテーションに使用できます。以下のセクションでは、具体的な使用方法を説明します。

✨ 主な機能

音声アクティビティ検出 (Voice Activity Detection)
オーバーラップ音声検出 (Overlapped Speech Detection)
再セグメンテーション (Resegmentation)

📦 インストール

このモデルはpyannote.audio 2.0に依存しています。インストール手順を参照してください。

💻 使用例

基本的な使用法

音声アクティビティ検出

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation="pyannote/segmentation")
HYPER_PARAMETERS = {
  # onset/offset activation thresholds
  "onset": 0.5, "offset": 0.5,
  # remove speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` is a pyannote.core.Annotation instance containing speech regions

オーバーラップ音声検出

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation="pyannote/segmentation")
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` is a pyannote.core.Annotation instance containing overlapped speech regions

再セグメンテーション

from pyannote.audio.pipelines import Resegmentation
pipeline = Resegmentation(segmentation="pyannote/segmentation", 
                          diarization="baseline")
pipeline.instantiate(HYPER_PARAMETERS)
resegmented_baseline = pipeline({"audio": "audio.wav", "baseline": baseline})
# where `baseline` should be provided as a pyannote.core.Annotation instance

生のスコア取得

from pyannote.audio import Inference
inference = Inference("pyannote/segmentation")
segmentation = inference("audio.wav")
# `segmentation` is a pyannote.core.SlidingWindowFeature
# instance containing raw segmentation scores like the 
# one pictured above (output)

高度な使用法

再現可能な研究のために、特定のハイパーパラメータを使用することができます。

音声アクティビティ検出のハイパーパラメータ

データセット	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.684	0.577	0.181	0.037
DIHARD3	0.767	0.377	0.136	0.067
VoxConverse	0.767	0.713	0.182	0.501

オーバーラップ音声検出のハイパーパラメータ

データセット	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.448	0.362	0.116	0.187
DIHARD3	0.430	0.320	0.091	0.144
VoxConverse	0.587	0.426	0.337	0.112

VBxの再セグメンテーションのハイパーパラメータ

データセット	`onset`	`offset`	`min_duration_on`	`min_duration_off`
AMI Mix-Headset	0.542	0.527	0.044	0.705
DIHARD3	0.592	0.489	0.163	0.182
VoxConverse	0.537	0.724	0.410	0.563

期待される出力（およびVBxベースライン）は、/reproducible_researchサブディレクトリにも提供されています。

📚 ドキュメント

サポート

商用のお問い合わせや科学的なコンサルティングについては、こちらまでご連絡ください。
技術的な質問やバグ報告については、pyannote.audioのGitHubリポジトリをご確認ください。

📄 ライセンス

このプロジェクトはMITライセンスの下で提供されています。

📖 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\\\\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}