Speaker-diarization-3.0开源说话人分割模型 - 免费实现语音活动及重叠语音检测

首页

Speaker Diarization 3.0

由 pyannote 开发

基于pyannote.audio 3.0.0训练的说话人分割管道，支持自动语音活动检测、说话人变化检测和重叠语音检测

说话人处理开源协议:MIT #多说话人识别 #重叠语音检测 #实时语音处理

下载量 463.91k

发布时间 : 9/22/2023

模型简介

该模型用于音频中的说话人分割任务，能够自动识别音频中的不同说话人及其活动时间段，支持16kHz采样的单声道音频处理。

模型特点

自动语音活动检测

无需手动语音活动检测，模型自动识别语音活动

说话人数量自动推断

可自动推断音频中的说话人数量，也支持手动指定

重叠语音处理

能够检测和处理说话人重叠的语音片段

多数据集训练

在AISHELL、AliMeeting、AMI等多个数据集上训练，具有广泛适用性

模型能力

说话人分割

语音活动检测

说话人变化检测

重叠语音检测

自动说话人计数

使用案例

会议记录

会议记录说话人分割

自动识别会议录音中的不同发言人及其发言时间

DER 12.3% (AISHELL-4数据集)

语音分析

多说话人语音分析

分析包含多个说话人的音频文件，识别各说话人活动时间段

DER 19.0% (AMI数据集)

🚀 🎹 说话人分割 3.0

本项目基于 pyannote.audio 开发了说话人分割 3.0 模型。该模型可对音频进行说话人分割处理，能自动处理多种音频格式和采样率，并在多个数据集上进行了基准测试，具有较高的准确性和实用性。

🚀 快速开始

如果你在生产环境中使用这个开源模型，考虑切换到 pyannoteAI 以获得更好更快的选择。

✨ 主要特性

该管道由 Séverin Baroudi 使用 pyannote.audio 3.0.0 进行训练，结合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse 的训练集。
它接收采样率为 16kHz 的单声道音频，并将说话人分割结果输出为一个 Annotation 实例。
- 立体声或多声道音频文件会通过对声道求平均值自动下混为单声道。
- 采样率不同的音频文件在加载时会自动重采样为 16kHz。

📦 安装指南

使用 pip install pyannote.audio 安装 pyannote.audio 3.0。
接受 pyannote/segmentation-3.0 的用户使用条件。
接受 pyannote/speaker-diarization-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

💻 使用示例

基础用法

# 实例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.0",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音频文件上运行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

GPU 处理

pyannote.audio 管道默认在 CPU 上运行。你可以使用以下代码将其发送到 GPU 运行：

import torch
pipeline.to(torch.device("cuda"))

使用一块 Nvidia Tesla V100 SXM2 GPU（用于神经推理部分）和一块 Intel Cascade Lake 6248 CPU（用于聚类部分）时，实时因子约为 2.5%。换句话说，处理一小时的对话大约需要 1.5 分钟。

内存处理

预先将音频文件加载到内存中可能会加快处理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

进度监控

可以使用钩子来监控管道的进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 详细文档

本管道在大量数据集上进行了基准测试。处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会有这种情况）。
无需手动指定说话人数量（尽管可以向管道提供该信息）。
无需对内部模型进行微调，也无需针对每个数据集调整管道的超参数。

... 采用最严格的说话人分割错误率（DER）设置（在本文中称为 "Full"）：

无宽容边界。
对重叠语音进行评估。

基准测试	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL - 4	12.3	3.8	4.4	4.1	RTTM	eval
AliMeeting (通道 1)	24.3	4.4	10.0	9.9	RTTM	eval
AMI (头戴式麦克风混音, 仅单词)	19.0	3.6	9.5	5.9	RTTM	eval
AMI (阵列 1，通道 1, 仅单词)	22.2	3.8	11.2	7.3	RTTM	eval
AVA - AVD	49.1	10.8	15.7	22.5	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	24.6	5.8	8.0	10.7	RTTM	eval
REPERE (阶段 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 许可证

本项目采用 MIT 许可证。收集的信息将有助于更好地了解 pyannote.audio 的用户群体，并帮助其维护者进一步改进它。尽管此管道使用 MIT 许可证，并且将始终保持开源，但我们偶尔会通过电子邮件向你介绍 pyannote 相关的高级管道和付费服务。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}