phil-pyannote-speaker-diarization-endpoint开源模型 - 免费分割音频中不同说话人

首页

Phil Pyannote Speaker Diarization Endpoint

由 tawkit 开发

基于pyannote.audio 2.0版本的说话人分割模型，用于自动检测和分割音频中的不同说话人。

说话人处理开源协议:MIT #多说话人分割 #重叠语音检测 #实时语音处理

下载量 215

发布时间 : 11/13/2022

模型简介

该模型能够自动检测音频中的说话人变化，识别不同的说话人，并支持重叠语音检测。适用于会议记录、电话录音分析等场景。

模型特点

完全自动化处理

无需手动语音活动检测或指定说话人数量，模型可自动完成所有处理步骤。

支持说话人数量限制

可通过参数指定说话人数量的下限和上限，提高分割准确性。

高性能实时处理

使用GPU加速，实时因子约为5%，处理一小时音频仅需约3分钟。

多数据集验证

在多个公开数据集上进行了基准测试，包括AMI、DIHARD、VoxConverse等。

模型能力

说话人分割

语音活动检测

重叠语音检测

自动语音识别辅助

使用案例

会议记录

会议发言分割

自动识别会议录音中不同发言人的片段

准确率在不同数据集上DER%为12.62%-30.24%

客服录音分析

客服对话分析

自动分割客服与客户的对话片段

在CALLHOME数据集上DER%为30.24%

媒体内容处理

访谈节目字幕生成

为访谈节目自动识别不同嘉宾的发言时间

在VoxConverse数据集上DER%为12.76%

🚀 说话人分割

说话人分割依赖于 pyannote.audio 2.0，请参考安装说明。

🚀 快速开始

# 从Huggingface Hub加载管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 将管道应用于音频文件
diarization = pipeline("audio.wav")

# 使用RTTM格式将分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

💻 使用示例

基础用法

# 从Huggingface Hub加载管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/speaker-diarization@2022.07")

# 将管道应用于音频文件
diarization = pipeline("audio.wav")

# 使用RTTM格式将分割输出保存到磁盘
with open("audio.rttm", "w") as rttm:
    diarization.write_rttm(rttm)

高级用法

如果事先知道说话人的数量，可以使用 num_speakers 选项：

diarization = pipeline("audio.wav", num_speakers=2)

也可以使用 min_speakers 和 max_speakers 选项提供说话人数量的下限和/或上限：

diarization = pipeline("audio.wav", min_speakers=2, max_speakers=5)

如果你喜欢尝试新事物，可以尝试调整各种管道超参数。例如，可以通过增加 segmentation_onset 阈值的值来使用更激进的语音活动检测：

hparams = pipeline.parameters(instantiated=True)
hparams["segmentation_onset"] += 0.1
pipeline.instantiate(hparams)

📚 详细文档

基准测试

实时因子

使用一块英伟达 Tesla V100 SXM2 GPU（用于神经推理部分）和一块英特尔 Cascade Lake 6248 CPU（用于聚类部分）时，实时因子约为 5%。

换句话说，处理一小时的对话大约需要 3 分钟。

准确性

此管道在不断增加的数据集上进行了基准测试。

处理过程完全自动化：

无需手动进行语音活动检测（文献中有时会这样做）
无需手动指定说话人数量（尽管可以将其提供给管道）
无需对内部模型进行微调，也无需针对每个数据集调整管道超参数

... 采用最严格的分割错误率（DER）设置（在本文中称为 "Full"）：

无宽容边界
评估重叠语音

基准测试	DER%	FA%	Miss%	Conf%	预期输出	文件级评估
AISHELL - 4	14.61	3.31	4.35	6.95	RTTM	eval
AMI Mix - Headset only_words	18.21	3.28	11.07	3.87	RTTM	eval
AMI Array1 - 01 only_words	29.00	2.71	21.61	4.68	RTTM	eval
CALLHOME Part2	30.24	3.71	16.86	9.66	RTTM	eval
DIHARD 3 Full	20.99	4.25	10.74	6.00	RTTM	eval
REPERE Phase 2	12.62	1.55	3.30	7.76	RTTM	eval
VoxConverse v0.0.2	12.76	3.45	3.85	5.46	RTTM	eval

支持

如需商业咨询和科学咨询，请联系我。
如需技术问题和错误报告，请查看 pyannote.audio 的 GitHub 仓库。

引用

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}