speaker - diarization - v1开源说话人分割模型 - 免费处理10秒单声道音频输出结果

首页

Speaker Diarization V1

由 objects76 开发

这是一个基于幂集多类交叉熵损失的说话人分割模型，能够处理10秒单声道音频，输出说话人分割结果。

说话人处理

PyTorch

开源协议:MIT #多说话人重叠检测 #实时语音分割 #会议场景优化

下载量 13

发布时间 : 9/9/2024

模型简介

该模型主要用于音频中的说话人分割、语音活动检测和重叠语音检测，支持多说话人场景下的语音分析。

模型特点

幂集多类编码

使用幂集多类交叉熵损失进行训练，能够同时处理多个说话人的语音分割。

多说话人支持

能够识别最多3个说话人及其重叠语音情况。

集成多种数据集

训练数据整合了AISHELL、AliMeeting、AMI等多个知名数据集。

模型能力

说话人分割

语音活动检测

重叠语音检测

多说话人识别

使用案例

语音分析

会议记录分析

自动识别会议录音中不同发言人的语音段落

提高会议记录效率，自动区分发言人

语音转写预处理

在语音识别前进行说话人分割

提高转写准确性，实现说话人标注

音频处理

重叠语音检测

识别音频中多人同时说话的部分

帮助分析对话交互模式

🚀 "Powerset"说话人分割模型

本模型是一个开源的说话人分割模型，它可以对音频进行处理，输出说话人分离的结果。如果你在生产环境中使用此模型，建议考虑使用 pyannoteAI 以获得更好更快的选择。

🚀 快速开始

模型概述

此模型接收以 16kHz 采样的 10 秒单声道音频，并将说话人分离结果输出为一个 (num_frames, num_classes) 矩阵，其中 7 个类别分别为 非语音、说话人 #1、说话人 #2、说话人 #3、说话人 #1 和 #2、说话人 #1 和 #3 以及 说话人 #2 和 #3。

示例输出

安装要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.0。
接受 pyannote/segmentation-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

使用示例

基础用法

# waveform (first row)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate)

# powerset multi-class encoding (second row)
powerset_encoding = model(waveform)

# multi-label encoding (third row)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk,
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

实例化模型

# instantiate the model
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0",
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

说话人分离

此模型本身不能对完整录音进行说话人分离（它仅处理 10 秒的音频块）。请参考 pyannote/speaker-diarization-3.0 管道，该管道使用额外的说话人嵌入模型来执行完整录音的说话人分离。

语音活动检测

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` is a pyannote.core.Annotation instance containing speech regions

重叠语音检测

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # remove overlapped speech regions shorter than that many seconds.
  "min_duration_on": 0.0,
  # fill non-overlapped speech regions shorter than that many seconds.
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` is a pyannote.core.Annotation instance containing overlapped speech regions

📚 详细文档

该模型背后的各种概念在这篇论文中有详细描述。它由 Séverin Baroudi 使用 pyannote.audio 3.0.0 进行训练，训练集结合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse。

由 Alexis Plaquet 维护的配套仓库还提供了如何在你自己的数据上训练或微调此模型的说明。

📄 许可证

本模型使用 MIT 许可证。

📖 引用

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}