speaker-diarization-3.1開源音頻模型 - 免費部署自動檢測分割音頻說話人

首頁

Speaker Diarization 3.1

由pyannote開發

一個用於說話人分割的音頻處理模型，能夠自動檢測和分割音頻中的不同說話人。

說話人處理開源協議:MIT #多說話人分割 #自動語音識別 #即時音頻處理

下載量 11.7M

發布時間 : 11/16/2023

模型概述

該模型接收16kHz採樣的單聲道音頻，輸出說話人分割結果。支持自動降混和重採樣，無需手動語音活動檢測或說話人數量指定。

模型特點

純PyTorch實現

移除了有問題的onnxruntime使用，簡化部署並可能加速推理。

自動處理

自動處理立體聲/多聲道音頻和不同採樣率，無需手動預處理。

說話人數量控制

可指定說話人數量或提供上下限，提高分割準確性。

進度監控

支持通過鉤子監控處理進度。

模型能力

說話人分割

說話人變更檢測

語音活動檢測

重疊語音檢測

自動語音識別輔助

使用案例

會議記錄

會議記錄分割

自動識別會議錄音中不同發言人的時間段

在AISHELL-4數據集上達到12.2%的分割錯誤率

媒體分析

廣播節目分析

分析廣播節目中不同主持人和嘉賓的發言時間分佈

在REPERE數據集上達到7.8%的分割錯誤率

語音轉寫

多說話人轉寫輔助

為自動語音識別系統提供說話人分割信息

🚀 🎹 說話人分割 3.1

本管道與 pyannote/speaker-diarization-3.0 基本相同，不同之處在於它移除了對 onnxruntime 的有問題的使用。現在，說話人分割和嵌入都完全在 PyTorch 中運行，這將簡化部署過程，並可能加快推理速度。該管道需要 pyannote.audio 版本 3.1 或更高版本。它接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果輸出為一個 Annotation 實例：

立體聲或多聲道音頻文件會通過對各聲道求平均值自動降混為單聲道。
採樣率不同的音頻文件在加載時會自動重採樣為 16kHz。

如果您在生產環境中使用此開源模型，建議切換到 pyannoteAI 以獲得更好、更快的選擇。

🚀 快速開始

🔧 要求

使用 pip install pyannote.audio 安裝 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用戶使用條件。
接受 pyannote/speaker-diarization-3.1 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

💻 使用示例

基礎用法

# 實例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音頻文件上運行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

在 GPU 上處理

pyannote.audio 管道默認在 CPU 上運行，您可以使用以下代碼將其發送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

從內存中處理

將音頻文件預加載到內存中可能會加快處理速度：

import torchaudio
waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

監控進度

可以使用鉤子來監控管道的進度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📊 基準測試

本管道在大量數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會有這種情況）。
無需手動指定說話人數量（儘管可以向管道提供該信息）。
無需對內部模型進行微調，也無需針對每個數據集調整管道的超參數。

在最嚴格的說話人分割錯誤率（DER）設置下（在本文中稱為 “Full”）：

無寬容邊界。
對重疊語音進行評估。

基準測試數據集	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	評估
AliMeeting (通道 1)	24.4	4.4	10.0	10.0	RTTM	評估
AMI (頭戴式麥克風混音, 僅單詞)	18.8	3.6	9.5	5.7	RTTM	評估
AMI (陣列 1，通道 1, 僅單詞)	22.4	3.8	11.2	7.5	RTTM	評估
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	評估
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	評估
MSDWild	25.3	5.8	8.0	11.5	RTTM	評估
REPERE (階段 2)	7.8	1.8	2.6	3.5	RTTM	評估
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	評估

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}