speaker-diarization開源說話人分割模型 - 免費檢測音頻說話人變化與重疊語音

首頁

Speaker Diarization

由pyannote開發

基於pyannote.audio 2.1.1版本的說話人分割模型，用於自動檢測音頻中的說話人變化和重疊語音

說話人處理開源協議:MIT #重疊語音檢測 #說話人分割 #即時處理

下載量 910.93k

發布時間 : 3/2/2022

模型概述

該模型是一個端到端的說話人分割管道，能夠自動檢測音頻中的說話人變化、識別重疊語音，並無需手動指定說話人數量即可完成分割任務。

模型特點

全自動處理

無需手動語音活動檢測或指定說話人數量即可完成分割

重疊語音檢測

能夠準確識別和處理說話人重疊的語音片段

說話人數量自適應

可自動適應不同數量的說話人，也支持手動指定說話人數量範圍

高性能

在多個基準測試數據集上表現優異，即時因子約為2.5%

模型能力

說話人分割

說話人變化檢測

語音活動檢測

重疊語音檢測

自動語音識別輔助

使用案例

會議記錄

會議記錄說話人分割

自動識別會議錄音中不同發言人的語音片段

在AMI數據集上DER為18.91%

媒體分析

廣播節目說話人分析

分析廣播節目中的說話人變化和重疊情況

在This American Life數據集上DER為20.82%

語音識別預處理

ASR系統預處理

為自動語音識別系統提供說話人分割信息

🚀 說話人分割模型

本項目基於 pyannote.audio 2.1.1 實現說話人分割功能，可有效識別音頻中不同說話人的發言時段。在生產環境中使用此開源模型時，可考慮切換至 pyannoteAI 獲取更優、更快的選擇。

🚀 快速開始

本模型依賴於 pyannote.audio 2.1.1，安裝說明請參考安裝指南。

基礎用法

# 1. 訪問 hf.co/pyannote/speaker-diarization 並接受用戶條件
# 2. 訪問 hf.co/pyannote/segmentation 並接受用戶條件
# 3. 訪問 hf.co/settings/tokens 創建訪問令牌
# 4. 實例化預訓練的說話人分割管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2.1",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

已知說話人數量

若事先知曉說話人的數量，可使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

指定說話人數量範圍

也可以使用 min_speakers 和 max_speakers 選項指定說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

🔧 技術細節

即時因子

使用一塊英偉達 Tesla V100 SXM2 GPU（用於神經推理部分）和一顆英特爾 Cascade Lake 6248 CPU（用於聚類部分）時，即時因子約為 2.5%。也就是說，處理一小時的對話大約需要 1.5 分鐘。

準確率

本管道在不斷增加的數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會這樣做）
無需手動指定說話人數量（儘管可以將其提供給管道）
無需對內部模型進行微調，也無需針對每個數據集調整管道超參數

採用最嚴格的分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界
對重疊語音進行評估

基準測試數據集	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	14.09	5.17	3.27	5.65	RTTM	eval
Albayzin (RTVE 2022)	25.60	5.58	6.84	13.18	RTTM	eval
AliMeeting (channel 1)	27.42	4.84	14.00	8.58	RTTM	eval
AMI (headset mix, only_words)	18.91	4.48	9.51	4.91	RTTM	eval
AMI (array1, channel 1, only_words)	27.12	4.11	17.78	5.23	RTTM	eval
CALLHOME (part2)	32.37	6.30	13.72	12.35	RTTM	eval
DIHARD 3 (Full)	26.94	10.50	8.41	8.03	RTTM	eval
Ego4D v1 (validation)	63.99	3.91	44.42	15.67	RTTM	eval
REPERE (phase 2)	8.17	2.23	2.49	3.45	RTTM	eval
This American Life	20.82	2.03	11.89	6.90	RTTM	eval
VoxConverse (v0.3)	11.24	4.42	2.88	3.94	RTTM	eval

📚 詳細文檔

這份報告描述了 pyannote.audio 說話人分割管道 2.1 版本背後的主要原理。它還提供瞭如何將管道應用於您自己的標註數據集的方法。特別是，這些方法應用於上述基準測試時，與上述開箱即用的性能相比，始終能顯著提高性能。

📄 許可證

本項目採用 MIT 許可證。

額外信息收集提示

收集的信息將有助於更好地瞭解 pyannote.audio 的用戶群體，並幫助其維護者申請資助以進一步改進它。如果您是學術研究人員，請在自己的出版物中引用相關論文。如果您為公司工作，請考慮為 pyannote.audio 的開發做出貢獻（例如，通過無限制捐贈）。我們還提供圍繞說話人分割和機器聽覺的科學諮詢服務。

額外信息收集字段

公司/大學：文本
網站：文本
我計劃將此模型用於（任務、音頻數據類型等）：文本

📖 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}