Speaker-diarization-3.1開源音頻說話人分割模型 - 自動檢測分割音頻不同說話人

首頁

Speaker Diarization 3.1

由fatymatariq開發

Pyannote音頻說話人分割管道，用於自動檢測和分割音頻中的不同說話人

說話人處理開源協議:MIT #多說話人分割 #重疊語音檢測 #純PyTorch推理

下載量 1,120

發布時間 : 11/21/2024

模型概述

這是一個用於說話人分割的音頻處理管道，能夠自動檢測音頻中的不同說話人並進行分割，支持16kHz採樣的單聲道音頻處理。

模型特點

純PyTorch實現

移除了有問題的onnxruntime使用，說話人分割和嵌入均以純PyTorch運行，簡化部署並可能加速推理

自動音頻處理

自動處理立體聲/多聲道音頻的降混和不同採樣率音頻的重採樣

說話人數量控制

支持指定說話人數量或設置說話人數量的上下限

全面基準測試

在多個公開數據集上進行了嚴格的基準測試，性能指標透明

模型能力

說話人分割

說話人變更檢測

語音活動檢測

重疊語音檢測

自動音頻重採樣

多聲道音頻處理

使用案例

會議記錄

會議發言記錄

自動識別會議錄音中不同發言人的時間段

生成帶時間戳的說話人分割結果

媒體分析

訪談節目分析

分析訪談節目中主持人和嘉賓的發言時間分佈

提供詳細的說話人交替統計數據

語音處理

語音識別預處理

為自動語音識別系統提供說話人分割信息

提高ASR系統在多說話人場景下的準確性

🚀 🎹說話人分割 3.1

本管道與 pyannote/speaker-diarization-3.0 基本相同，不同之處在於它移除了對 onnxruntime 的有問題的使用。現在，說話人分割和嵌入都完全在 PyTorch 中運行，這將簡化部署過程，並可能加快推理速度。該管道需要 pyannote.audio 版本 3.1 或更高版本。它接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果作為一個 Annotation 實例輸出。

注意事項

⚠️ 重要提示

使用此開源模型進行生產？考慮切換到 pyannoteAI 以獲取更好、更快的選擇。

🚀 快速開始

本管道接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果作為一個 Annotation 實例輸出：

立體聲或多聲道音頻文件會通過對各聲道求平均值自動降混為單聲道。
採樣率不同的音頻文件在加載時會自動重採樣為 16kHz。

📦 安裝指南

使用 pip install pyannote.audio 安裝版本為 3.1 的 pyannote.audio。
接受 pyannote/segmentation-3.0 的用戶使用條件。
接受 pyannote/speaker-diarization-3.1 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

💻 使用示例

基礎用法

# 實例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音頻文件上運行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

在 GPU 上處理

pyannote.audio 管道默認在 CPU 上運行。你可以使用以下代碼將其發送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

從內存中處理

將音頻文件預加載到內存中可能會加快處理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

監控進度

可以使用鉤子來監控管道的進度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 詳細文檔

本管道在大量數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會有這種情況）。
無需手動指定說話人數量（儘管可以將其提供給管道）。
無需對內部模型進行微調，也無需針對每個數據集調整管道的超參數。

使用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界。
評估重疊語音。

屬性	詳情
模型類型	說話人分割管道
訓練數據	未提及

基準測試	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (channel 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (headset mix, only_words)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (array1, channel 1, only_words)	22.4	3.8	11.2	7.5	RTTM	eval
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (phase 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 許可證

本項目採用 MIT 許可證。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}