segmentation-3.0开源说话人分割模型 - 免费处理10秒音频识别多说话人

首页

Segmentation 3.0

由 pyannote 开发

这是一个基于幂集编码的说话人分割模型，能够处理10秒音频片段并识别多个说话人及其重叠语音。

说话人处理

PyTorch

开源协议:MIT #多说话人重叠检测 #语音活动识别 #实时音频处理

下载量 12.6M

发布时间 : 9/22/2023

模型简介

该模型用于音频中的说话人分割、语音活动检测和重叠语音检测，支持最多3个说话人的识别及其组合。

模型特点

幂集编码

使用7个类别编码说话人组合，包括单个说话人和重叠说话人情况

多任务处理

同时支持说话人分割、语音活动检测和重叠语音检测

高效处理

专为10秒音频片段优化，适合实时或批量处理

模型能力

说话人识别

语音活动检测

重叠语音检测

多说话人场景处理

使用案例

会议记录

会议发言者识别

自动识别会议录音中的不同发言者及其发言时间

准确分割各发言者语音并标记重叠部分

语音分析

语音活动检测

检测音频中的语音片段与非语音片段

精确识别语音区域并过滤静音部分

重叠语音分析

识别多人同时说话的情况

准确标记重叠语音区域

🚀 "Powerset"说话人分割模型

本开源模型可对16kHz采样的10秒单声道音频进行处理，输出说话人分割结果。它以(num_frames, num_classes)矩阵的形式呈现，其中包含7个类别，分别为_非语音_、说话人 #1、说话人 #2、说话人 #3、说话人 #1 和 #2、说话人 #1 和 #3 以及 说话人 #2 和 #3。这一模型能在语音处理领域，如会议记录、音频内容分析等场景中发挥重要作用，帮助用户准确识别音频中的说话人信息。

如果在生产环境中使用此开源模型，建议考虑切换到 pyannoteAI，以获取更优质、更高效的解决方案。

示例输出

🚀 快速开始

安装要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.0 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

模型使用

# 实例化模型
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

💻 使用示例

基础用法

# 波形数据（第一行）
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# 幂集多类编码（第二行）
powerset_encoding = model(waveform)

# 多标签编码（第三行）
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

高级用法

说话人分割

此模型本身无法对完整录音进行说话人分割（它仅处理10秒的音频片段）。可参考 pyannote/speaker-diarization-3.0 管道，该管道使用额外的说话人嵌入模型来对完整录音进行说话人分割。

语音活动检测

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该时长（秒）的语音区域
  "min_duration_on": 0.0,
  # 填充短于该时长（秒）的非语音区域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` 是一个包含语音区域的 pyannote.core.Annotation 实例

重叠语音检测

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该时长（秒）的重叠语音区域
  "min_duration_on": 0.0,
  # 填充短于该时长（秒）的非重叠语音区域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` 是一个包含重叠语音区域的 pyannote.core.Annotation 实例

📚 详细文档

该模型背后的各种概念在这篇论文中有详细描述。它由Séverin Baroudi使用 pyannote.audio 3.0.0 版本，结合AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE和VoxConverse的训练集进行训练。

由 Alexis Plaquet 维护的配套仓库还提供了如何在自己的数据上训练或微调此类模型的说明。

📄 许可证

本项目采用MIT许可证。

📚 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

📋 信息表格

属性	详情
模型类型	“Powerset”说话人分割模型
训练数据	AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE和VoxConverse的训练集