Overlapped-Speech-Detection开源模型 - 精准检测音频中多人同时说话时段

首页

Overlapped Speech Detection

由 pyannote 开发

一个用于检测音频中重叠语音的预训练模型，能够识别两个或更多说话人同时活跃的时间段。

说话人处理开源协议:MIT #重叠语音检测 #说话人分割 #端到端模型

下载量 144.68k

发布时间 : 3/2/2022

模型简介

该模型主要用于检测音频中的重叠语音部分，即两个或更多说话人同时说话的片段。适用于语音处理、说话人日志等任务。

模型特点

重叠语音检测

准确识别音频中两个或更多说话人同时活跃的时间段

端到端训练

采用端到端的训练方式，直接从原始音频学习特征

预训练模型

提供开箱即用的预训练模型，无需从头训练

模型能力

重叠语音检测

说话人分割

音频时间线分析

使用案例

语音处理

会议记录分析

分析会议录音中的重叠对话部分，提高转录准确性

可识别多人同时发言的片段

说话人日志

为说话人日志系统提供重叠语音检测功能

改善说话人分割的准确性

🚀 重叠语音检测

本项目借助 pyannote.audio 实现重叠语音检测功能，可有效识别音频中重叠的语音部分。通过开源模型，能在多种场景下进行重叠语音的检测，为语音处理相关应用提供支持。

🚀 快速开始

若要在生产环境中使用此开源模型，可考虑切换到 pyannoteAI 以获取更优更快的选择。

本模型依赖 pyannote.audio 2.1，请参考安装说明进行安装。

💻 使用示例

基础用法

# 1. 访问 hf.co/pyannote/segmentation 并接受用户条件
# 2. 访问 hf.co/settings/tokens 创建访问令牌
# 3. 实例化预训练的重叠语音检测管道
from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/overlapped-speech-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 在 speech.start 和 speech.end 之间有两个或更多说话者处于活跃状态
    ...

📚 详细文档

支持

商业咨询和科学咨询：请通过邮箱联系。
技术问题和错误报告：请查看 pyannote.audio 的 Github 仓库，可在讨论区提出技术问题，在问题反馈区提交错误报告。

引用

如果您使用了本模型，请按照以下格式引用相关论文：

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

📄 许可证

本项目采用 MIT 许可证。

额外信息

收集的信息将有助于更好地了解 pyannote.audio 的用户群体，并帮助维护者申请资助以进一步改进它。如果您是学术研究人员，请在自己的出版物中引用相关论文。如果您为公司工作，请考虑为 pyannote.audio 的开发做出贡献（例如，通过无限制捐赠）。我们还围绕说话人分割和机器听觉提供科学咨询服务。

属性	详情
标签	pyannote、pyannote-audio、pyannote-audio-pipeline、audio、voice、speech、speaker、overlapped-speech-detection、automatic-speech-recognition
数据集	ami、dihard、voxconverse