Speaker-diarization-3.1开源音频说话人分割模型 - 自动检测分割音频不同说话人

首页

Speaker Diarization 3.1

由 fatymatariq 开发

Pyannote音频说话人分割管道，用于自动检测和分割音频中的不同说话人

说话人处理开源协议:MIT #多说话人分割 #重叠语音检测 #纯PyTorch推理

下载量 1,120

发布时间 : 11/21/2024

模型简介

这是一个用于说话人分割的音频处理管道，能够自动检测音频中的不同说话人并进行分割，支持16kHz采样的单声道音频处理。

模型特点

纯PyTorch实现

移除了有问题的onnxruntime使用，说话人分割和嵌入均以纯PyTorch运行，简化部署并可能加速推理

自动音频处理

自动处理立体声/多声道音频的降混和不同采样率音频的重采样

说话人数量控制

支持指定说话人数量或设置说话人数量的上下限

全面基准测试

在多个公开数据集上进行了严格的基准测试，性能指标透明

模型能力

说话人分割

说话人变更检测

语音活动检测

重叠语音检测

自动音频重采样

多声道音频处理

使用案例

会议记录

会议发言记录

自动识别会议录音中不同发言人的时间段

生成带时间戳的说话人分割结果

媒体分析

访谈节目分析

分析访谈节目中主持人和嘉宾的发言时间分布

提供详细的说话人交替统计数据

语音处理

语音识别预处理

为自动语音识别系统提供说话人分割信息

提高ASR系统在多说话人场景下的准确性

🚀 🎹说话人分割 3.1

本管道与 pyannote/speaker-diarization-3.0 基本相同，不同之处在于它移除了对 onnxruntime 的有问题的使用。现在，说话人分割和嵌入都完全在 PyTorch 中运行，这将简化部署过程，并可能加快推理速度。该管道需要 pyannote.audio 版本 3.1 或更高版本。它接收采样率为 16kHz 的单声道音频，并将说话人分割结果作为一个 Annotation 实例输出。

注意事项

⚠️ 重要提示

使用此开源模型进行生产？考虑切换到 pyannoteAI 以获取更好、更快的选择。

🚀 快速开始

本管道接收采样率为 16kHz 的单声道音频，并将说话人分割结果作为一个 Annotation 实例输出：

立体声或多声道音频文件会通过对各声道求平均值自动降混为单声道。
采样率不同的音频文件在加载时会自动重采样为 16kHz。

📦 安装指南

使用 pip install pyannote.audio 安装版本为 3.1 的 pyannote.audio。
接受 pyannote/segmentation-3.0 的用户使用条件。
接受 pyannote/speaker-diarization-3.1 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

💻 使用示例

基础用法

# 实例化管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained(
  "pyannote/speaker-diarization-3.1",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

# 在音频文件上运行管道
diarization = pipeline("audio.wav")

# 使用 RTTM 格式将说话人分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

在 GPU 上处理

pyannote.audio 管道默认在 CPU 上运行。你可以使用以下代码将其发送到 GPU：

import torch
pipeline.to(torch.device("cuda"))

从内存中处理

将音频文件预加载到内存中可能会加快处理速度：

waveform, sample_rate = torchaudio.load("audio.wav")
diarization = pipeline({"waveform": waveform, "sample_rate": sample_rate})

监控进度

可以使用钩子来监控管道的进度：

from pyannote.audio.pipelines.utils.hook import ProgressHook
with ProgressHook() as hook:
    diarization = pipeline("audio.wav", hook=hook)

控制说话人数量

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

📚 详细文档

本管道在大量数据集上进行了基准测试。处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会有这种情况）。
无需手动指定说话人数量（尽管可以将其提供给管道）。
无需对内部模型进行微调，也无需针对每个数据集调整管道的超参数。

使用最严格的说话人分割错误率（DER）设置（在本文中称为 "Full"）：

无宽容边界。
评估重叠语音。

属性	详情
模型类型	说话人分割管道
训练数据	未提及

基准测试	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL-4	12.2	3.8	4.4	4.0	RTTM	eval
AliMeeting (channel 1)	24.4	4.4	10.0	10.0	RTTM	eval
AMI (headset mix, only_words)	18.8	3.6	9.5	5.7	RTTM	eval
AMI (array1, channel 1, only_words)	22.4	3.8	11.2	7.5	RTTM	eval
AVA-AVD	50.0	10.8	15.7	23.4	RTTM	eval
DIHARD 3 (Full)	21.7	6.2	8.1	7.3	RTTM	eval
MSDWild	25.3	5.8	8.0	11.5	RTTM	eval
REPERE (phase 2)	7.8	1.8	2.6	3.5	RTTM	eval
VoxConverse (v0.3)	11.3	4.1	3.4	3.8	RTTM	eval

📄 许可证

本项目采用 MIT 许可证。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}