pyannote-speaker-diarization-endpoint开源模型 - 免费自动检测分割音频不同说话人

首页

Pyannote Speaker Diarization Endpoint

由 KIFF 开发

基于pyannote.audio 2.0版本的说话人分割模型，用于自动检测和分割音频中的不同说话人

说话人处理开源协议:MIT #说话人分割 #重叠语音检测 #多场景适配

下载量 1,830

发布时间 : 6/18/2023

模型简介

该模型是一个端到端的说话人分割系统，能够自动检测音频中的说话人变化、语音活动以及重叠语音，无需手动指定说话人数量或调整参数

模型特点

全自动处理

无需手动语音活动检测或指定说话人数量

重叠语音检测

能够识别和处理同时说话的多个说话人

高性能

在多个基准测试数据集上表现优异

实时处理

实时因子约为5%，一小时音频处理约需3分钟

模型能力

说话人分割

语音活动检测

重叠语音检测

自动说话人计数

音频分析

使用案例

会议记录

会议记录分析

自动识别会议录音中的不同发言人及其发言时间

提高会议记录效率，自动生成发言时间线

媒体分析

广播节目分析

分析广播节目中主持人和嘉宾的发言模式

帮助内容生产者优化节目结构

语音研究

对话分析

研究多人对话中的发言轮换模式

为语言学和社会学研究提供数据支持

🚀 🎹 说话人分割

本项目基于 pyannote.audio 2.0 实现说话人分割功能，能够有效识别音频中的不同说话人。它可以自动处理音频，无需手动进行语音活动检测、指定说话人数量或对内部模型进行微调。

🚀 快速开始

本项目依赖于 pyannote.audio 2.0，请参考安装说明进行安装。

💻 使用示例

基础用法

# 从 Huggingface Hub 加载管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 将管道应用于音频文件
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

如果事先知道说话人的数量，可以在参数字典中包含 num_speakers 参数：

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"num_speakers": 2}})

也可以使用 min_speakers 和 max_speakers 参数提供说话人数量的下限和/或上限：

handler = EndpointHandler()
diarization = handler({"inputs": base64_audio, "parameters": {"min_speakers": 2, "max_speakers": 5}})

如果您想进行更多尝试，可以试验各种管道超参数。例如，可以通过增加 segmentation_onset 阈值的值来使用更激进的语音活动检测：

hparams = handler.pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
handler.pipeline.instantiate(hparams)

要应用更新后的处理程序进行可以处理说话人数量的 API 推理，请使用以下代码：

from typing import Dict
from pyannote.audio import Pipeline
import torch 
import base64
import numpy as np

SAMPLE_RATE = 16000

class EndpointHandler():
    def __init__(self, path=""):
        # 加载模型
        self.pipeline = Pipeline.from_pretrained("KIFF/pyannote-speaker-diarization-endpoint")

    def __call__(self, data: Dict[str, bytes]) -> Dict[str, str]:
        """
        Args:
            data (:obj:):
                包含反序列化后的音频文件字节
        Return:
            A :obj:`dict`:. base64 编码的图像
        """
        # 处理输入
        inputs = data.pop("inputs", data)
        parameters = data.pop("parameters", None) #  min_speakers=2, max_speakers=5

        # 解码 base64 音频数据
        audio_data = base64.b64decode(inputs)
        audio_nparray = np.frombuffer(audio_data, dtype=np.int16)

        # 准备 pyannote 输入
        audio_tensor= torch.from_numpy(audio_nparray).float().unsqueeze(0)
        pyannote_input = {"waveform": audio_tensor, "sample_rate": SAMPLE_RATE}
        
        # 应用预训练管道
        # 使用 data 中的所有关键字参数传递输入
        if parameters is not None:
            diarization = self.pipeline(pyannote_input, **parameters)
        else:
            diarization = self.pipeline(pyannote_input)

        # 后处理预测结果
        processed_diarization = [
            {"label": str(label), "start": str(segment.start), "stop": str(segment.end)}
            for segment, _, label in diarization.itertracks(yield_label=True)
        ]
        
        return {"diarization": processed_diarization}

🔧 技术细节

实时因子

使用一块 Nvidia Tesla V100 SXM2 GPU（用于神经推理部分）和一块 Intel Cascade Lake 6248 CPU（用于聚类部分）时，实时因子约为 5%。

换句话说，处理一小时的对话大约需要 3 分钟。

准确性

该管道在不断增加的数据集上进行了基准测试。

处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会这样做）
无需手动指定说话人数量（尽管可以将其提供给管道）
无需对内部模型进行微调，也无需针对每个数据集调整管道超参数

... 采用最严格的说话人分割错误率（DER）设置（在本文中称为 "Full"）：

无宽容边界
对重叠语音进行评估

基准测试	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL-4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix-Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1-01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

📚 详细文档

商业咨询和科学咨询：请通过邮件联系作者。
技术问题和错误报告：请查看 pyannote.audio 的 Github 仓库，在讨论区提出技术问题，在问题区报告错误。

📄 许可证

本项目采用 MIT 许可证。

📚 引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}