pyannote-speaker-diarization-endpoint開源模型 - 免費自動檢測分割音頻不同說話人

首頁

Pyannote Speaker Diarization Endpoint

由KIFF開發

基於pyannote.audio 2.0版本的說話人分割模型，用於自動檢測和分割音頻中的不同說話人

說話人處理開源協議:MIT #說話人分割 #重疊語音檢測 #多場景適配

下載量 1,830

發布時間 : 6/18/2023

模型概述

該模型是一個端到端的說話人分割系統，能夠自動檢測音頻中的說話人變化、語音活動以及重疊語音，無需手動指定說話人數量或調整參數

模型特點

全自動處理

無需手動語音活動檢測或指定說話人數量

重疊語音檢測

能夠識別和處理同時說話的多個說話人

高性能

在多個基準測試數據集上表現優異

即時處理

即時因子約為5%，一小時音頻處理約需3分鐘

模型能力

說話人分割

語音活動檢測

重疊語音檢測

自動說話人計數

音頻分析

使用案例

會議記錄

會議記錄分析

自動識別會議錄音中的不同發言人及其發言時間

提高會議記錄效率，自動生成發言時間線

媒體分析

廣播節目分析

分析廣播節目中主持人和嘉賓的發言模式

幫助內容生產者優化節目結構

語音研究

對話分析

研究多人對話中的發言輪換模式

為語言學和社會學研究提供數據支持

🚀 🎹 說話人分割

本項目基於 pyannote.audio 2.0 實現說話人分割功能，能夠有效識別音頻中的不同說話人。它可以自動處理音頻，無需手動進行語音活動檢測、指定說話人數量或對內部模型進行微調。

🚀 快速開始

本項目依賴於 pyannote.audio 2.0，請參考安裝說明進行安裝。

💻 使用示例

基礎用法

# 從 Huggingface Hub 加載管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 將管道應用於音頻文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式將說話人分割輸出保存到磁盤
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高級用法

如果事先知道說話人的數量，可以在參數字典中包含 num_speakers 參數：

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"num_speakers": 2}})

也可以使用 min_speakers 和 max_speakers 參數提供說話人數量的下限和/或上限：

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"min_speakers": 2, "max_speakers": 5}})

如果您想進行更多嘗試，可以試驗各種管道超參數。例如，可以通過增加 segmentation_onset 閾值的值來使用更激進的語音活動檢測：

hparams = handler.pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
handler.pipeline.instantiate(hparams)

要應用更新後的處理程序進行可以處理說話人數量的 API 推理，請使用以下代碼：

from typing import Dict
from pyannote.audio import Pipeline
import torch 
import base64
import numpy as np

SAMPLE_RATE = 16000

class EndpointHandler():
    def __init__(self, path=""):
        # 加載模型
        self.pipeline = Pipeline.from_pretrained("KIFF/pyannote-speaker-diarization-endpoint")

    def __call__(self, data: Dict[str, bytes]) -> Dict[str, str]:
        """
        Args:
            data (:obj:):
                包含反序列化後的音頻文件字節
        Return:
            A :obj:`dict`:. base64 編碼的圖像
        """
        # 處理輸入
        inputs = data.pop("inputs", data)
        parameters = data.pop("parameters", None) #  min_speakers=2, max_speakers=5

        # 解碼 base64 音頻數據
        audio_data = base64.b64decode(inputs)
        audio_nparray = np.frombuffer(audio_data, dtype=np.int16)

        # 準備 pyannote 輸入
        audio_tensor= torch.from_numpy(audio_nparray).float().unsqueeze(0)
        pyannote_input = {"waveform": audio_tensor, "sample_rate": SAMPLE_RATE}
        
        # 應用預訓練管道
        # 使用 data 中的所有關鍵字參數傳遞輸入
        if parameters is not None:
            diarization = self.pipeline(pyannote_input, **parameters)
        else:
            diarization = self.pipeline(pyannote_input)

        # 後處理預測結果
        processed_diarization = [
            {"label": str(label), "start": str(segment.start), "stop": str(segment.end)}
            for segment, _, label in diarization.itertracks(yield_label=True)
        ]
        
        return {"diarization": processed_diarization}

🔧 技術細節

即時因子

使用一塊 Nvidia Tesla V100 SXM2 GPU（用於神經推理部分）和一塊 Intel Cascade Lake 6248 CPU（用於聚類部分）時，即時因子約為 5%。

換句話說，處理一小時的對話大約需要 3 分鐘。

準確性

該管道在不斷增加的數據集上進行了基準測試。

處理過程完全自動化：

無需手動進行語音活動檢測（文獻中有時會這樣做）
無需手動指定說話人數量（儘管可以將其提供給管道）
無需對內部模型進行微調，也無需針對每個數據集調整管道超參數

... 採用最嚴格的說話人分割錯誤率（DER）設置（在本文中稱為 "Full"）：

無寬容邊界
對重疊語音進行評估

基準測試	DER%	FA%	Miss%	Conf%	預期輸出	文件級評估
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

📚 詳細文檔

商業諮詢和科學諮詢：請通過郵件聯繫作者。
技術問題和錯誤報告：請查看 pyannote.audio 的 Github 倉庫，在討論區提出技術問題，在問題區報告錯誤。

📄 許可證

本項目採用 MIT 許可證。

📚 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}