phil-pyannote-speaker-diarization-endpoint開源模型 - 免費分割音頻中不同說話人

首頁

Phil Pyannote Speaker Diarization Endpoint

由tawkit開發

基於pyannote.audio 2.0版本的說話人分割模型，用於自動檢測和分割音頻中的不同說話人。

說話人處理開源協議:MIT #多說話人分割 #重疊語音檢測 #即時語音處理

下載量 215

發布時間 : 11/13/2022

模型概述

該模型能夠自動檢測音頻中的說話人變化，識別不同的說話人，並支持重疊語音檢測。適用於會議記錄、電話錄音分析等場景。

模型特點

完全自動化處理

無需手動語音活動檢測或指定說話人數量，模型可自動完成所有處理步驟。

支持說話人數量限制

可通過參數指定說話人數量的下限和上限，提高分割準確性。

高性能即時處理

使用GPU加速，即時因子約為5%，處理一小時音頻僅需約3分鐘。

多數據集驗證

在多個公開數據集上進行了基準測試，包括AMI、DIHARD、VoxConverse等。

模型能力

說話人分割

語音活動檢測

重疊語音檢測

自動語音識別輔助

使用案例

會議記錄

會議發言分割

自動識別會議錄音中不同發言人的片段

準確率在不同數據集上DER%為12.62%-30.24%

客服錄音分析

客服對話分析

自動分割客服與客戶的對話片段

在CALLHOME數據集上DER%為30.24%

媒體內容處理

訪談節目字幕生成

為訪談節目自動識別不同嘉賓的發言時間

在VoxConverse數據集上DER%為12.76%

🚀 說話人分割

說話人分割依賴於 pyannote.audio 2.0，請參考安裝說明。

🚀 快速開始

# 從Huggingface Hub加載管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用RTTM格式將分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

💻 使用示例

基礎用法

# 從Huggingface Hub加載管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用RTTM格式將分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

如果你喜歡嘗試新事物，可以嘗試調整各種管道超參數。例如，可以通過增加 segmentation_onset 閾值的值來使用更激進的語音活動檢測：

hparams = pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
pipeline.instantiate(hparams)

📚 詳細文檔

基準測試

即時因子

使用一塊英偉達 Tesla V100 SXM2 GPU（用於神經推理部分）和一塊英特爾 Cascade Lake 6248 CPU（用於聚類部分）時，即時因子約為 5%。

換句話說，處理一小時的對話大約需要 3 分鐘。

準確性

此管道在不斷增加的數據集上進行了基準測試。

處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會這樣做）
無需手動指定說話人數量（儘管可以將其提供給管道）
無需對內部模型進行微調，也無需針對每個數據集調整管道超參數

... 採用最嚴格的分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界
評估重疊語音

基準測試	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL - 4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix - Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1 - 01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

支持

如需商業諮詢和科學諮詢，請聯繫我。
如需技術問題和錯誤報告，請查看 pyannote.audio 的 GitHub 倉庫。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}