speaker-diarization-3.1开源音频模型 - 免费部署自动检测分割音频说话人

首页

Speaker Diarization 3.1

由 pyannote 开发

一个用于说话人分割的音频处理模型，能够自动检测和分割音频中的不同说话人。

说话人处理开源协议:MIT #多说话人分割 #自动语音识别 #实时音频处理

下载量 11.7M

发布时间 : 11/16/2023

模型简介

该模型接收16kHz采样的单声道音频，输出说话人分割结果。支持自动降混和重采样，无需手动语音活动检测或说话人数量指定。

模型特点

纯PyTorch实现

移除了有问题的onnxruntime使用，简化部署并可能加速推理。

自动处理

自动处理立体声/多声道音频和不同采样率，无需手动预处理。

说话人数量控制

可指定说话人数量或提供上下限，提高分割准确性。

进度监控

支持通过钩子监控处理进度。

模型能力

说话人分割

说话人变更检测

语音活动检测

重叠语音检测

自动语音识别辅助

使用案例

会议记录

会议记录分割

自动识别会议录音中不同发言人的时间段

在AISHELL-4数据集上达到12.2%的分割错误率

媒体分析

广播节目分析

分析广播节目中不同主持人和嘉宾的发言时间分布

在REPERE数据集上达到7.8%的分割错误率

语音转写

多说话人转写辅助

为自动语音识别系统提供说话人分割信息

🚀 🎹 说话人分割 3.1

本管道与 pyannote/speaker-diarization-3.0 基本相同，不同之处在于它移除了对 onnxruntime 的有问题的使用。现在，说话人分割和嵌入都完全在 PyTorch 中运行，这将简化部署过程，并可能加快推理速度。该管道需要 pyannote.audio 版本 3.1 或更高版本。它接收采样率为 16kHz 的单声道音频，并将说话人分割结果输出为一个 Annotation 实例：

立体声或多声道音频文件会通过对各声道求平均值自动降混为单声道。
采样率不同的音频文件在加载时会自动重采样为 16kHz。

如果您在生产环境中使用此开源模型，建议切换到 pyannoteAI 以获得更好、更快的选择。

🚀 快速开始

🔧 要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
接受 pyannote/speaker-diarization-3.1 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

💻 使用示例

基础用法

# 实例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音频文件上运行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

在 GPU 上处理

pyannote.audio 管道默认在 CPU 上运行，您可以使用以下代码将其发送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

从内存中处理

将音频文件预加载到内存中可能会加快处理速度：

import torchaudio
waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

监控进度

可以使用钩子来监控管道的进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📊 基准测试

本管道在大量数据集上进行了基准测试。处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会有这种情况）。
无需手动指定说话人数量（尽管可以向管道提供该信息）。
无需对内部模型进行微调，也无需针对每个数据集调整管道的超参数。

在最严格的说话人分割错误率（DER）设置下（在本文中称为 “Full”）：

无宽容边界。
对重叠语音进行评估。

基准测试数据集	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	评估
AliMeeting (通道 1)	24.4	4.4	10.0	10.0	RTTM	评估
AMI (头戴式麦克风混音, 仅单词)	18.8	3.6	9.5	5.7	RTTM	评估
AMI (阵列 1，通道 1, 仅单词)	22.4	3.8	11.2	7.5	RTTM	评估
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	评估
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	评估
MSDWild	25.3	5.8	8.0	11.5	RTTM	评估
REPERE (阶段 2)	7.8	1.8	2.6	3.5	RTTM	评估
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	评估

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}