pyannote-speaker-diarization-endpoint開源說話人分割模型 - 自動檢測音頻說話人變化與語音活動

首頁

Pyannote Speaker Diarization Endpoint

由philschmid開發

基於pyannote.audio 2.0的說話人分割模型，用於自動檢測音頻中的說話人變化和語音活動

說話人處理開源協議:MIT #多說話人分割 #重疊語音檢測 #自動說話人計數

下載量 51

發布時間 : 10/7/2022

模型概述

該模型是一個端到端的說話人分割系統，能夠自動檢測音頻中的說話人變化、語音活動以及重疊語音，無需手動干預即可完成說話人分割任務。

模型特點

全自動處理

無需手動語音活動檢測或指定說話人數量即可完成分割

重疊語音檢測

能夠檢測並處理說話人重疊的情況

說話人數量自適應

可自動確定說話人數量，也支持手動指定

高性能

在多個基準測試數據集上表現優異

模型能力

說話人分割

語音活動檢測

重疊語音檢測

說話人變化檢測

自動說話人計數

使用案例

會議記錄

會議記錄分割

自動分割會議錄音中的不同發言人

在AMI數據集上達到18.21%的DER

電話錄音分析

客服電話分析

自動區分客服和客戶的語音片段

在CALLHOME數據集上達到30.24%的DER

媒體內容分析

訪談節目分析

自動識別訪談節目中的主持人和嘉賓

在VoxConverse數據集上達到12.76%的DER

🚀 說話人分割

本項目依賴於 pyannote.audio 2.0，安裝說明請參考安裝指南。

🚀 快速開始

# 從 Huggingface Hub 加載管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

✨ 主要特性

支持指定說話人數量進行說話人分割。
可設置說話人數量的上下界。
可調整管道的超參數以實現不同的分割效果。

💻 使用示例

基礎用法

# 從 Huggingface Hub 加載管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

指定說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

指定說話人數量的上下界

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下界和/或上界：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

調整管道超參數

如果想嘗試不同的效果，可以調整管道的各種超參數。例如，可以通過增加 segmentation_onset 閾值的值來使用更激進的語音活動檢測：

hparams = pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
pipeline.instantiate(hparams)

📚 詳細文檔

基準測試

即時因子

使用一塊 Nvidia Tesla V100 SXM2 GPU（用於神經推理部分）和一塊 Intel Cascade Lake 6248 CPU（用於聚類部分）時，即時因子約為 5%。

換句話說，處理一小時的對話大約需要 3 分鐘。

準確性

該管道在不斷增加的數據集上進行了基準測試。

處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會這樣做）
無需手動指定說話人數量（儘管可以將其提供給管道）
無需對內部模型進行微調，也無需為每個數據集調整管道超參數

... 採用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界
評估重疊語音

基準測試	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

支持與反饋

商業諮詢和科學諮詢：請通過郵箱聯繫。
技術問題和錯誤報告：請查看 pyannote.audio 的 Github 倉庫，在討論區提出技術問題，在問題區報告錯誤。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}