segmentation-3.0开源音频分割模型 - 免费检测说话人变化及语音活动

首页

Segmentation 3.0

由 fatymatariq 开发

这是一个用于音频分割的模型，能够检测说话人变化、语音活动及重叠语音，适用于多说话人场景的音频分析。

说话人处理

PyTorch

开源协议:MIT #多说话人检测 #重叠语音识别 #实时语音处理

下载量 1,228

发布时间 : 11/21/2024

模型简介

该模型处理10秒单声道音频片段，输出包含7个类别的说话人日志矩阵，支持非语音、单个说话人及多个说话人重叠的检测。

模型特点

幂集多类编码

支持7种说话人状态的分类，包括非语音、单个说话人及多个说话人重叠场景。

高精度分割

在多种数据集上训练，能够准确检测说话人变化和语音活动。

多数据集训练

结合AISHELL、AliMeeting、AMI等多个数据集训练，具有广泛适用性。

模型能力

说话人日志

语音活动检测

重叠语音检测

说话人变化检测

使用案例

会议记录

多说话人会议记录

自动分割会议录音中的不同说话人，便于后续转录和分析。

提高会议记录的准确性和效率。

语音分析

重叠语音检测

检测音频中的重叠语音部分，适用于对话分析和语音增强。

提升语音处理的精度。

🚀 "Powerset" 说话人分割模型

本项目是一个用于说话人分割的开源模型，它能够对音频进行处理，输出说话人分割的结果。该模型在音频处理领域，特别是说话人分割、检测等任务上具有重要价值。

🚀 快速开始

安装要求

使用 pip install pyannote.audio 安装 pyannote.audio 3.0 版本。
接受 pyannote/segmentation-3.0 的用户使用条件。
在 hf.co/settings/tokens 创建访问令牌。

模型实例化

# 实例化模型
from pyannote.audio import Model
model = Model.from_pretrained(
  "pyannote/segmentation-3.0", 
  use_auth_token="HUGGINGFACE_ACCESS_TOKEN_GOES_HERE")

✨ 主要特性

本模型接收 10 秒、采样率为 16kHz 的单声道音频，并将说话人分割结果输出为一个 (num_frames, num_classes) 矩阵。其中，7 个类别分别为 非语音、说话人 #1、说话人 #2、说话人 #3、说话人 #1 和 #2、说话人 #1 和 #3 以及 说话人 #2 和 #3。
模型背后的各种概念在这篇论文中有详细描述。
该模型由 Séverin Baroudi 使用 pyannote.audio 3.0.0 版本进行训练，训练数据结合了 AISHELL、AliMeeting、AMI、AVA - AVD、DIHARD、Ego4D、MSDWild、REPERE 和 VoxConverse 等数据集。

💻 使用示例

基础用法

# 波形数据 (第一行)
duration, sample_rate, num_channels = 10, 16000, 1
waveform = torch.randn(batch_size, num_channels, duration * sample_rate) 

# 幂集多类编码 (第二行)
powerset_encoding = model(waveform)

# 多标签编码 (第三行)
from pyannote.audio.utils.powerset import Powerset
max_speakers_per_chunk, max_speakers_per_frame = 3, 2
to_multilabel = Powerset(
    max_speakers_per_chunk, 
    max_speakers_per_frame).to_multilabel
multilabel_encoding = to_multilabel(powerset_encoding)

说话人分割应用

本模型不能单独用于对完整录音进行说话人分割（它仅处理 10 秒的音频块）。可参考 pyannote/speaker - diarization - 3.0 管道，该管道使用额外的说话人嵌入模型来执行完整录音的说话人分割。

语音活动检测

from pyannote.audio.pipelines import VoiceActivityDetection
pipeline = VoiceActivityDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该时长（秒）的语音区域
  "min_duration_on": 0.0,
  # 填充短于该时长（秒）的非语音区域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
vad = pipeline("audio.wav")
# `vad` 是一个包含语音区域的 pyannote.core.Annotation 实例

重叠语音检测

from pyannote.audio.pipelines import OverlappedSpeechDetection
pipeline = OverlappedSpeechDetection(segmentation=model)
HYPER_PARAMETERS = {
  # 移除短于该时长（秒）的重叠语音区域
  "min_duration_on": 0.0,
  # 填充短于该时长（秒）的非重叠语音区域
  "min_duration_off": 0.0
}
pipeline.instantiate(HYPER_PARAMETERS)
osd = pipeline("audio.wav")
# `osd` 是一个包含重叠语音区域的 pyannote.core.Annotation 实例

📚 详细文档

本模型的详细原理和相关概念可参考这篇论文。此外，Alexis Plaquet 的配套仓库也提供了如何在自己的数据上训练或微调该模型的说明。

📄 许可证

本项目采用 MIT 许可证。

📖 引用说明

@inproceedings{Plaquet23,
  author={Alexis Plaquet and Hervé Bredin},
  title={{Powerset multi-class cross entropy loss for neural speaker diarization}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

@inproceedings{Bredin23,
  author={Hervé Bredin},
  title={{pyannote.audio 2.1 speaker diarization pipeline: principle, benchmark, and recipe}},
  year=2023,
  booktitle={Proc. INTERSPEECH 2023},
}

⚠️ 重要提示

使用此开源模型进行生产时，考虑切换到 pyannoteAI 以获取更好、更快的选项。收集的信息将有助于更好地了解 pyannote.audio 的用户群体，并帮助其维护者进一步改进它。尽管此模型使用 MIT 许可证并将始终保持开源，但我们偶尔会通过电子邮件向您介绍有关 pyannote 的高级模型和付费服务。