🚀 話者分離
このオープンソースモデルは、音声データ内の話者を識別し、各話者の発話区間を特定する話者分離タスクに使用されます。生産環境での使用を検討する場合は、より良いオプションを提供する pyannoteAI を検討してください。
🚀 クイックスタート
このモデルは pyannote.audio 2.1.1 に依存しています。インストール手順 を参照してください。
基本的な使用法
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1",
use_auth_token="ACCESS_TOKEN_GOES_HERE")
diarization = pipeline("audio.wav")
with open("audio.rttm", "w") as rttm:
diarization.write_rttm(rttm)
高度な使用法
話者の数が事前にわかっている場合は、num_speakers
オプションを使用できます。
diarization = pipeline("audio.wav", num_speakers=2)
また、min_speakers
と max_speakers
オプションを使用して、話者の数の下限と上限を指定することもできます。
diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)
✨ 主な機能
- 複数のデータセット(ami、dihard、voxconverseなど)で訓練された話者分離モデル。
- 音声活動検出、話者変更検出、重複音声検出などの機能を提供。
- 自動音声認識タスクにも利用可能。
📦 インストール
このモデルは pyannote.audio 2.1.1 に依存しています。インストール手順 を参照してください。
📚 ドキュメント
ベンチマーク
リアルタイム係数
1つのNvidia Tesla V100 SXM2 GPU(ニューラル推論部分)と1つのIntel Cascade Lake 6248 CPU(クラスタリング部分)を使用すると、リアルタイム係数は約2.5%です。つまり、1時間の会話を処理するのに約1.5分かかります。
精度
このパイプラインは、増え続けるデータセットでベンチマークされています。処理は完全に自動化されており、手動での音声活動検出や話者数の指定、内部モデルの微調整やパイプラインのハイパーパラメータの調整は必要ありません。
技術レポート
この レポート では、pyannote.audio 話者分離パイプラインのバージョン 2.1
の背後にある主要な原理が説明されています。また、パイプラインを独自の注釈付きデータセットに適応させる方法が記載されています。特に、これらの方法は上記のベンチマークに適用され、上記のデフォルトの性能よりも大幅な性能向上が見られます。
🔧 技術詳細
このモデルは、pyannote.audio 2.1.1 をベースに構築されており、話者分離タスクに特化したニューラルネットワークモデルを使用しています。モデルは、複数のデータセット(ami、dihard、voxconverseなど)で訓練されており、音声活動検出、話者変更検出、重複音声検出などの機能を提供します。
📄 ライセンス
このプロジェクトは MIT ライセンスの下で提供されています。
引用
@inproceedings{Bredin2021,
Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
Booktitle = {Proc. Interspeech 2021},
Address = {Brno, Czech Republic},
Month = {August},
Year = {2021},
}
@inproceedings{Bredin2020,
Title = {{pyannote.audio: neural building blocks for speaker diarization}},
Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
Address = {Barcelona, Spain},
Month = {May},
Year = {2020},
}