segmentation-3.0开源说话人分割模型 - 免费检测语音活动及说话人变更

首页

Segmentation 3.0

由 tensorlake 开发

这是一个基于pyannote.audio的说话人分割模型，能检测语音活动、说话人变更和重叠语音。

说话人处理

PyTorch

开源协议:MIT #多说话人检测 #重叠语音识别 #实时语音处理

下载量 387

发布时间 : 7/25/2024

模型简介

该模型处理10秒16kHz采样的单声道音频，输出7类说话人分割结果，包括非语音、单个说话人和重叠说话人检测。

模型特点

多任务处理

同时支持语音活动检测、说话人分割和重叠语音检测

高效处理

专为10秒音频片段优化，适合实时处理

多数据集训练

使用AISHELL、AliMeeting、AMI等多个数据集训练，泛化能力强

模型能力

语音活动检测

说话人分割

重叠语音检测

说话人变更检测

使用案例

会议分析

会议记录

自动识别会议中的不同说话人

提高会议记录效率

语音分析

语音活动检测

识别音频中的语音片段

可用于语音识别预处理

🚀 "Powerset" 说话人分割模型

本模型是一个开源的说话人分割模型，它能将输入的音频进行处理，输出说话人分割结果。模型以10秒、16kHz采样的单声道音频为输入，输出说话人分割矩阵。同时，使用该模型在生产环境中时，可考虑切换到 pyannoteAI 以获得更好更快的选择。

🚀 快速开始

安装要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.0 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

模型使用

# 实例化模型
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

✨ 主要特性

本模型以10秒、16kHz采样的单声道音频为输入，输出说话人分割结果，以 (num_frames, num_classes) 矩阵呈现，其中7个类别分别为 非语音、说话人 #1、说话人 #2、说话人 #3、说话人 #1 和 #2、说话人 #1 和 #3 以及 说话人 #2 和 #3。

示例输出

💻 使用示例

基础用法

# 波形数据 (第一行)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# 幂集多类编码 (第二行)
powerset_encoding = model(waveform)

# 多标签编码 (第三行)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高级用法

说话人分割

此模型本身不能对完整录音进行说话人分割（它仅处理10秒的音频块）。可参考 pyannote/speaker-diarization-3.0 管道，该管道使用额外的说话人嵌入模型来执行完整录音的说话人分割。

语音活动检测

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该秒数的语音区域。
  "min_duration_on": 0.0,
  # 填充短于该秒数的非语音区域。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` 是一个包含语音区域的 pyannote.core.Annotation 实例

重叠语音检测

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该秒数的重叠语音区域。
  "min_duration_on": 0.0,
  # 填充短于该秒数的非重叠语音区域。
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` 是一个包含重叠语音区域的 pyannote.core.Annotation 实例

📚 详细文档

该模型背后的各种概念在这篇论文中有详细描述。

它由 Séverin Baroudi 使用 pyannote.audio 3.0.0 版本进行训练，训练集结合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse。

由 Alexis Plaquet 维护的配套仓库也提供了如何在自己的数据上训练或微调此类模型的说明。

📄 许可证

本模型采用 MIT 许可证。

📖 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}