speaker-diarization-optimized開源說話人分割模型 - 自動檢測音頻說話人變化與分割片段

首頁

Speaker Diarization Optimized

由G-Root開發

Pyannote.audio的說話人分割管道，用於自動檢測音頻中的說話人變化和分割語音片段

說話人處理開源協議:MIT #說話人分割 #重疊語音檢測 #多場景適配

下載量 349

發布時間 : 1/25/2024

模型概述

這是一個用於說話人分割的音頻處理管道，能夠自動檢測音頻中的說話人變化、識別重疊語音，並輸出說話人分割結果。它支持16kHz採樣的單聲道音頻，可自動處理立體聲/多聲道音頻的降混和重採樣。

模型特點

純PyTorch實現

移除了有問題的onnxruntime依賴，完全使用PyTorch運行，簡化部署並可能加速推理

自動處理

完全自動化處理，無需手動語音活動檢測或指定說話人數量

多格式支持

支持輸出RTTM格式的分割結果，方便後續處理和分析

GPU加速

支持在GPU上運行以加速處理

模型能力

說話人分割

語音活動檢測

重疊語音檢測

自動說話人計數

音頻降混處理

音頻重採樣

使用案例

會議記錄

會議記錄分割

自動分割會議錄音中的不同發言人

提高會議記錄效率，減少人工轉錄時間

媒體分析

廣播節目分析

分析廣播節目中的主持人切換和嘉賓發言

幫助內容分析人員快速瞭解節目結構

語音研究

語音數據庫標註

自動為語音數據庫添加說話人標籤

大幅減少人工標註工作量

🚀 🎹說話人分割 3.1

本管道與 pyannote/speaker-diarization-3.0 基本相同，不同之處在於它移除了對 onnxruntime 的有問題的使用。說話人分割和嵌入現在都完全在 PyTorch 中運行，這將簡化部署過程，並可能加快推理速度。該管道需要 pyannote.audio 版本 3.1 或更高版本。

使用此開源管道進行生產？藉助我們的諮詢服務充分發揮其作用。

🚀 快速開始

本管道接收採樣率為 16kHz 的單聲道音頻，並將說話人分割結果輸出為一個 Annotation 實例：

立體聲或多聲道音頻文件會通過對各聲道求平均值自動降混為單聲道。
採樣率不同的音頻文件在加載時會自動重新採樣為 16kHz。

✨ 主要特性

移除了對 onnxruntime 的有問題使用，說話人分割和嵌入都在純 PyTorch 中運行，簡化部署並可能加快推理速度。
能自動處理立體聲或多聲道音頻文件，將其降混為單聲道；自動對不同採樣率的音頻文件重新採樣為 16kHz。

📦 安裝指南

使用 pip install pyannote.audio 安裝 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用戶使用條件。
接受 pyannote/speaker-diarization-3.1 的用戶使用條件。
在 hf.co/settings/tokens 創建訪問令牌。

💻 使用示例

基礎用法

# 實例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音頻文件上運行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

在 GPU 上處理

pyannote.audio 管道默認在 CPU 上運行，你可以使用以下代碼將其發送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

從內存中處理

預先將音頻文件加載到內存中可能會加快處理速度：

import torchaudio
waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

監控進度

可以使用鉤子來監控管道的進度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制說話人數量

如果事先知道說話人的數量，可以使用 num_speakers 選項：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 選項提供說話人數量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 詳細文檔

基準測試

本管道已在大量數據集上進行了基準測試。處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會有此操作）。
無需手動指定說話人數量（儘管可以向管道提供此信息）。
無需對內部模型進行微調，也無需針對每個數據集調整管道的超參數。

... 採用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 “Full”）：

不使用寬容邊界。
對重疊語音進行評估。

基準測試數據集	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL - 4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (通道 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (頭戴式麥克風混音, 僅單詞)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (陣列 1，通道 1, 僅單詞)	22.4	3.8	11.2	7.5	RTTM	eval
AVA - AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (階段 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 許可證

本項目採用 MIT 許可證。

收集的信息將有助於更好地瞭解 pyannote.audio 的用戶群體，並幫助其維護者進一步改進它。儘管此管道使用 MIT 許可證，並且將始終保持開源，但我們偶爾會通過電子郵件向你介紹有關 pyannote 的高級管道和付費服務。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}