speaker-diarization-3.1開源音頻處理模型 - 免費分割說話人、檢測語音活動與重疊

首頁

Speaker Diarization 3.1

由tensorlake開發

一個用於說話人分割和嵌入的音頻處理模型，支持自動語音活動檢測和重疊語音檢測。

說話人處理開源協議:MIT #多說話人分割 #純PyTorch推理 #自動語音活動檢測

下載量 393

發布時間 : 7/25/2024

模型概述

該模型接收16kHz採樣的單聲道音頻，輸出說話人分割結果，支持自動下混和重採樣，無需手動語音活動檢測或說話人數量指定。

模型特點

純PyTorch實現

移除了有問題的onnxruntime使用，簡化部署並可能加速推理。

自動處理

自動處理立體聲/多聲道音頻和不同採樣率，無需預處理。

說話人數量控制

支持指定說話人數量或設置上下限。

進度監控

可通過鉤子監控管道處理進度。

模型能力

說話人分割

語音活動檢測

重疊語音檢測

說話人變化檢測

自動語音識別輔助

使用案例

會議記錄

會議記錄分析

自動識別會議中不同發言人的語音片段

生成帶時間戳的說話人分割結果

媒體制作

播客/訪談分析

自動分割播客或訪談中的不同說話人

生成RTTM格式的分割文件

語音分析

語音活動檢測

檢測音頻中的語音活動區域

準確識別語音和非語音片段

🚀 🎹 說話人分割 3.1

本管道與 pyannote/speaker-diarization-3.0 相同，只是它移除了對 onnxruntime 的有問題的使用。說話人分割和嵌入現在都完全在 PyTorch 中運行，這應該會簡化部署並可能加快推理速度。它需要 pyannote.audio 版本 3.1 或更高版本。

該管道接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果作為一個 Annotation 實例輸出：

立體聲或多聲道音頻文件會通過對各聲道求平均值自動下混為單聲道。
採樣率不同的音頻文件在加載時會自動重採樣為 16kHz。

使用此開源模型進行生產？考慮切換到 pyannoteAI 以獲得更好、更快的選擇。

🚀 快速開始

要求

使用 pip install pyannote.audio 安裝 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用戶使用條件。
接受 pyannote/speaker-diarization-3.1 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

用法

# 實例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音頻文件上運行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

在 GPU 上處理

pyannote.audio 管道默認在 CPU 上運行。你可以使用以下代碼將其發送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

從內存中處理

將音頻文件預加載到內存中可能會加快處理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

監控進度

可以使用鉤子來監控管道的進度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📊 基準測試

該管道已在大量數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會有這種情況）。
無需手動指定說話人數量（儘管可以將其提供給管道）。
無需對內部模型進行微調，也無需針對每個數據集調整管道的超參數。

... 採用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 “Full”）：

無寬容邊界。
評估重疊語音。

基準測試數據集	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (channel 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (headset mix, only_words)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (array1, channel 1, only_words)	22.4	3.8	11.2	7.5	RTTM	eval
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (phase 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}