speaker-diarization-3.1开源音频处理模型 - 免费分割说话人、检测语音活动与重叠

首页

Speaker Diarization 3.1

由 tensorlake 开发

一个用于说话人分割和嵌入的音频处理模型，支持自动语音活动检测和重叠语音检测。

说话人处理开源协议:MIT #多说话人分割 #纯PyTorch推理 #自动语音活动检测

下载量 393

发布时间 : 7/25/2024

模型简介

该模型接收16kHz采样的单声道音频，输出说话人分割结果，支持自动下混和重采样，无需手动语音活动检测或说话人数量指定。

模型特点

纯PyTorch实现

移除了有问题的onnxruntime使用，简化部署并可能加速推理。

自动处理

自动处理立体声/多声道音频和不同采样率，无需预处理。

说话人数量控制

支持指定说话人数量或设置上下限。

进度监控

可通过钩子监控管道处理进度。

模型能力

说话人分割

语音活动检测

重叠语音检测

说话人变化检测

自动语音识别辅助

使用案例

会议记录

会议记录分析

自动识别会议中不同发言人的语音片段

生成带时间戳的说话人分割结果

媒体制作

播客/访谈分析

自动分割播客或访谈中的不同说话人

生成RTTM格式的分割文件

语音分析

语音活动检测

检测音频中的语音活动区域

准确识别语音和非语音片段

🚀 🎹 说话人分割 3.1

本管道与 pyannote/speaker-diarization-3.0 相同，只是它移除了对 onnxruntime 的有问题的使用。说话人分割和嵌入现在都完全在 PyTorch 中运行，这应该会简化部署并可能加快推理速度。它需要 pyannote.audio 版本 3.1 或更高版本。

该管道接收采样率为 16kHz 的单声道音频，并将说话人分割结果作为一个 Annotation 实例输出：

立体声或多声道音频文件会通过对各声道求平均值自动下混为单声道。
采样率不同的音频文件在加载时会自动重采样为 16kHz。

使用此开源模型进行生产？考虑切换到 pyannoteAI 以获得更好、更快的选择。

🚀 快速开始

要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.1 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
接受 pyannote/speaker-diarization-3.1 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

用法

# 实例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音频文件上运行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

在 GPU 上处理

pyannote.audio 管道默认在 CPU 上运行。你可以使用以下代码将其发送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

从内存中处理

将音频文件预加载到内存中可能会加快处理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

监控进度

可以使用钩子来监控管道的进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📊 基准测试

该管道已在大量数据集上进行了基准测试。处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会有这种情况）。
无需手动指定说话人数量（尽管可以将其提供给管道）。
无需对内部模型进行微调，也无需针对每个数据集调整管道的超参数。

... 采用最严格的说话人分割错误率（DER）设置（在本文中称为 “Full”）：

无宽容边界。
评估重叠语音。

基准测试数据集	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (channel 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (headset mix, only_words)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (array1, channel 1, only_words)	22.4	3.8	11.2	7.5	RTTM	eval
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (phase 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}