Speaker-diarization-3.0開源說話人分割模型 - 免費實現語音活動及重疊語音檢測

首頁

Speaker Diarization 3.0

由pyannote開發

基於pyannote.audio 3.0.0訓練的說話人分割管道，支持自動語音活動檢測、說話人變化檢測和重疊語音檢測

說話人處理開源協議:MIT #多說話人識別 #重疊語音檢測 #即時語音處理

下載量 463.91k

發布時間 : 9/22/2023

模型概述

該模型用於音頻中的說話人分割任務，能夠自動識別音頻中的不同說話人及其活動時間段，支持16kHz採樣的單聲道音頻處理。

模型特點

自動語音活動檢測

無需手動語音活動檢測，模型自動識別語音活動

說話人數量自動推斷

可自動推斷音頻中的說話人數量，也支持手動指定

重疊語音處理

能夠檢測和處理說話人重疊的語音片段

多數據集訓練

在AISHELL、AliMeeting、AMI等多個數據集上訓練，具有廣泛適用性

模型能力

說話人分割

語音活動檢測

說話人變化檢測

重疊語音檢測

自動說話人計數

使用案例

會議記錄

會議記錄說話人分割

自動識別會議錄音中的不同發言人及其發言時間

DER 12.3% (AISHELL-4數據集)

語音分析

多說話人語音分析

分析包含多個說話人的音頻文件，識別各說話人活動時間段

DER 19.0% (AMI數據集)

🚀 🎹 說話人分割 3.0

本項目基於 pyannote.audio 開發了說話人分割 3.0 模型。該模型可對音頻進行說話人分割處理，能自動處理多種音頻格式和採樣率，並在多個數據集上進行了基準測試，具有較高的準確性和實用性。

🚀 快速開始

如果你在生產環境中使用這個開源模型，考慮切換到 pyannoteAI 以獲得更好更快的選擇。

✨ 主要特性

該管道由 Séverin Baroudi 使用 pyannote.audio 3.0.0 進行訓練，結合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse 的訓練集。
它接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果輸出為一個 Annotation 實例。
- 立體聲或多聲道音頻文件會通過對聲道求平均值自動下混為單聲道。
- 採樣率不同的音頻文件在加載時會自動重採樣為 16kHz。

📦 安裝指南

使用 pip install pyannote.audio 安裝 pyannote.audio 3.0。
接受 pyannote/segmentation-3.0 的用戶使用條件。
接受 pyannote/speaker-diarization-3.0 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

💻 使用示例

基礎用法

# 實例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.0",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音頻文件上運行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

GPU 處理

pyannote.audio 管道默認在 CPU 上運行。你可以使用以下代碼將其發送到 GPU 運行：

import torch
pipeline.to(torch.device("cuda"))

使用一塊 Nvidia Tesla V100 SXM2 GPU（用於神經推理部分）和一塊 Intel Cascade Lake 6248 CPU（用於聚類部分）時，即時因子約為 2.5%。換句話說，處理一小時的對話大約需要 1.5 分鐘。

內存處理

預先將音頻文件加載到內存中可能會加快處理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

進度監控

可以使用鉤子來監控管道的進度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 詳細文檔

本管道在大量數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會有這種情況）。
無需手動指定說話人數量（儘管可以向管道提供該信息）。
無需對內部模型進行微調，也無需針對每個數據集調整管道的超參數。

... 採用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界。
對重疊語音進行評估。

基準測試	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL - 4	12.3	3.8	4.4	4.1	RTTM	eval
AliMeeting (通道 1)	24.3	4.4	10.0	9.9	RTTM	eval
AMI (頭戴式麥克風混音, 僅單詞)	19.0	3.6	9.5	5.9	RTTM	eval
AMI (陣列 1，通道 1, 僅單詞)	22.2	3.8	11.2	7.3	RTTM	eval
AVA - AVD	49.1	10.8	15.7	22.5	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	24.6	5.8	8.0	10.7	RTTM	eval
REPERE (階段 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 許可證

本項目採用 MIT 許可證。收集的信息將有助於更好地瞭解 pyannote.audio 的用戶群體，並幫助其維護者進一步改進它。儘管此管道使用 MIT 許可證，並且將始終保持開源，但我們偶爾會通過電子郵件向你介紹 pyannote 相關的高級管道和付費服務。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}