speaker-diarizationオープンソースの話者分割モデル - 無料でオーディオの話者変化と重複音声を検出

ホーム

Speaker Diarization

pyannoteによって開発

pyannote.audio 2.1.1バージョンに基づく話者分割モデルで、音声中の話者の変化と重複音声を自動検出するために使用されます。

話者の処理オープンソースライセンス:MIT #重複音声検出 #話者分割 #リアルタイム処理

ダウンロード数 910.93k

リリース時間 : 3/2/2022

モデル概要

このモデルはエンドツーエンドの話者分割パイプラインで、音声中の話者の変化を自動検出し、重複音声を識別し、話者の数を手動で指定する必要なく分割タスクを完了することができます。

モデル特徴

全自動処理

手動での音声活動検出や話者の数の指定なしで分割を完了できます。

重複音声検出

話者が重複する音声フラグメントを正確に識別して処理することができます。

話者数の自動適応

異なる数の話者に自動的に適応でき、話者の数の範囲を手動で指定することもサポートしています。

高性能

複数のベンチマークテストデータセットで優れた性能を発揮し、リアルタイム係数は約2.5%です。

モデル能力

話者分割

話者の変化検出

音声活動検出

重複音声検出

自動音声認識支援

使用事例

会議記録

会議記録の話者分割

会議録音中の異なる発言者の音声フラグメントを自動識別します。

AMIデータセットでDERは18.91%です。

メディア分析

ラジオ番組の話者分析

ラジオ番組の話者の変化と重複状況を分析します。

This American LifeデータセットでDERは20.82%です。

音声認識前処理

ASRシステムの前処理

自動音声認識システムに話者分割情報を提供します。

🚀 話者分離

このオープンソースモデルは、音声データ内の話者を識別し、各話者の発話区間を特定する話者分離タスクに使用されます。生産環境での使用を検討する場合は、より良いオプションを提供する pyannoteAI を検討してください。

🚀 クイックスタート

このモデルは pyannote.audio 2.1.1 に依存しています。インストール手順を参照してください。

基本的な使用法

# 1. hf.co/pyannote/speaker-diarization にアクセスし、ユーザー条件に同意する
# 2. hf.co/pyannote/segmentation にアクセスし、ユーザー条件に同意する
# 3. hf.co/settings/tokens にアクセスし、アクセストークンを作成する
# 4. 事前学習済みの話者分離パイプラインをインスタンス化する
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")

# パイプラインを音声ファイルに適用する
diarization = pipeline("audio.wav")

# 話者分離の出力をRTTM形式でディスクに保存する
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高度な使用法

話者の数が事前にわかっている場合は、num_speakers オプションを使用できます。

diarization = pipeline("audio.wav", num_speakers=2)

また、min_speakers と max_speakers オプションを使用して、話者の数の下限と上限を指定することもできます。

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

✨ 主な機能

複数のデータセット（ami、dihard、voxconverseなど）で訓練された話者分離モデル。
音声活動検出、話者変更検出、重複音声検出などの機能を提供。
自動音声認識タスクにも利用可能。

📦 インストール

このモデルは pyannote.audio 2.1.1 に依存しています。インストール手順を参照してください。

📚 ドキュメント

ベンチマーク

リアルタイム係数

1つのNvidia Tesla V100 SXM2 GPU（ニューラル推論部分）と1つのIntel Cascade Lake 6248 CPU（クラスタリング部分）を使用すると、リアルタイム係数は約2.5%です。つまり、1時間の会話を処理するのに約1.5分かかります。

精度

このパイプラインは、増え続けるデータセットでベンチマークされています。処理は完全に自動化されており、手動での音声活動検出や話者数の指定、内部モデルの微調整やパイプラインのハイパーパラメータの調整は必要ありません。

ベンチマーク	DER%	FA%	Miss%	Conf%	期待される出力	ファイルレベルの評価
AISHELL-4	14.09	5.17	3.27	5.65	RTTM	eval
Albayzin (RTVE 2022)	25.60	5.58	6.84	13.18	RTTM	eval
AliMeeting (channel 1)	27.42	4.84	14.00	8.58	RTTM	eval
AMI (headset mix, only_words)	18.91	4.48	9.51	4.91	RTTM	eval
AMI (array1, channel 1, only_words)	27.12	4.11	17.78	5.23	RTTM	eval
CALLHOME (part2)	32.37	6.30	13.72	12.35	RTTM	eval
DIHARD 3 (Full)	26.94	10.50	8.41	8.03	RTTM	eval
Ego4D v1 (validation)	63.99	3.91	44.42	15.67	RTTM	eval
REPERE (phase 2)	8.17	2.23	2.49	3.45	RTTM	eval
This American Life	20.82	2.03	11.89	6.90	RTTM	eval
VoxConverse (v0.3)	11.24	4.42	2.88	3.94	RTTM	eval

技術レポート

このレポートでは、pyannote.audio 話者分離パイプラインのバージョン 2.1 の背後にある主要な原理が説明されています。また、パイプラインを独自の注釈付きデータセットに適応させる方法が記載されています。特に、これらの方法は上記のベンチマークに適用され、上記のデフォルトの性能よりも大幅な性能向上が見られます。

🔧 技術詳細

このモデルは、pyannote.audio 2.1.1 をベースに構築されており、話者分離タスクに特化したニューラルネットワークモデルを使用しています。モデルは、複数のデータセット（ami、dihard、voxconverseなど）で訓練されており、音声活動検出、話者変更検出、重複音声検出などの機能を提供します。

📄 ライセンス

このプロジェクトは MIT ライセンスの下で提供されています。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}