pyannote-speaker-diarization-endpointオープンソース話者分割モデル - オーディオの話者の変化と音声アクティビティを自動検出

ホーム

Pyannote Speaker Diarization Endpoint

philschmidによって開発

pyannote.audio 2.0ベースの話者分割モデルで、音声中の話者変化や音声活動を自動検出

話者の処理オープンソースライセンス:MIT #マルチスピーカー分割 #オーバーラップ音声検出 #自動話者カウント

ダウンロード数 51

リリース時間 : 10/7/2022

モデル概要

このモデルはエンドツーエンドの話者分割システムで、音声中の話者変化、音声活動、オーバーラップ音声を自動検出し、手動介入なしで話者分割タスクを完了できます。

モデル特徴

完全自動処理

手動の音声活動検出や話者数の指定なしで分割可能

オーバーラップ音声検出

話者のオーバーラップ状況を検出・処理可能

話者数自動適応

話者数を自動決定可能、手動指定もサポート

高性能

複数のベンチマークデータセットで優れた性能を発揮

モデル能力

話者分割

音声活動検出

オーバーラップ音声検出

話者変化検出

自動話者カウント

使用事例

会議記録

会議記録分割

会議録音中の異なる発言者を自動分割

AMIデータセットで18.21%のDERを達成

電話録音分析

コールセンター通話分析

オペレーターと顧客の音声セグメントを自動識別

CALLHOMEデータセットで30.24%のDERを達成

メディアコンテンツ分析

インタビュー番組分析

インタビュー番組の司会者とゲストを自動識別

VoxConverseデータセットで12.76%のDERを達成

🚀 話者分離

このプロジェクトは音声データ内の話者を識別し、分離することを目的としています。pyannote.audio 2.0に依存しており、高精度な話者分離を実現します。

🚀 クイックスタート

このパイプラインは pyannote.audio 2.0に依存しています。インストール手順を参照してください。

💻 使用例

基本的な使用法

# Hugginface Hubからパイプラインを読み込む
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# パイプラインを音声ファイルに適用する
diarization = pipeline("audio.wav")

# 話者分離の結果をRTTM形式でディスクに保存する
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高度な使用法

話者の数が事前にわかっている場合、num_speakersオプションを使用できます。

diarization = pipeline("audio.wav", num_speakers=2)

話者の数の下限と上限をmin_speakersとmax_speakersオプションを使用して指定することもできます。

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

もし冒険的な方であれば、様々なパイプラインのハイパーパラメータを試してみることができます。例えば、segmentation_onset閾値を増やすことで、より積極的な音声活性検出を行うことができます。

hparams = pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
pipeline.instantiate(hparams)

📚 ドキュメント

リアルタイム係数

1つのNvidia Tesla V100 SXM2 GPU（ニューラル推論部分）と1つのIntel Cascade Lake 6248 CPU（クラスタリング部分）を使用すると、リアルタイム係数は約5%です。言い換えると、1時間の会話を処理するのに約3分かかります。

精度

このパイプラインは、増え続けるデータセットでベンチマークされています。処理は完全に自動化されており、以下のような条件で評価されています。

手動による音声活性検出は行われません（文献で時々見られるようなもの）
手動で話者の数を指定する必要はありません（ただし、パイプラインに指定することは可能です）
内部モデルの微調整やパイプラインのハイパーパラメータの調整は、各データセットに対して行われません

最も厳しい話者分離誤差率（DER）の設定（この論文で "Full" と呼ばれるもの）で評価されています。

許容範囲はありません
重複する音声の評価も行われます

ベンチマーク	DER%	FA%	Miss%	Conf%	期待される出力	ファイルレベルの評価
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

サポート

商用利用や科学的なコンサルティングに関する問い合わせは、こちらまでお問い合わせください。技術的な質問やバグ報告については、pyannote.audioのGitHubリポジトリを確認してください。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}