voice-activity-detection开源语音检测模型 - 精准识别音频中语音活动时间段

首页

Voice Activity Detection

由 pyannote 开发

基于pyannote.audio 2.1版本的语音活动检测模型，用于识别音频中的语音活动时间段

语音识别开源协议:MIT #语音活动检测 #说话人分割 #重叠语音处理

下载量 7.7M

发布时间 : 3/2/2022

模型简介

该模型主要用于检测音频中的语音活动，能够准确识别语音段的开始和结束时间，适用于语音处理流程中的预处理步骤

模型特点

高精度语音检测

能够准确检测音频中的语音活动时间段

端到端处理

提供完整的端到端语音活动检测解决方案

易于集成

提供简单的Python接口，便于集成到现有系统中

模型能力

语音活动检测

音频时间标记

语音/非语音分类

使用案例

语音处理

自动语音识别预处理

在ASR系统前检测语音活动，提高识别效率

减少非语音段的处理开销

会议记录分析

标记会议录音中的发言时间段

便于后续发言者分析和内容提取

🚀 语音活动检测

本项目基于pyannote.audio实现语音活动检测功能，借助先进的技术和开源模型，为音频处理领域提供了高效、准确的解决方案。它能有效识别音频中的语音活动，在语音识别、音频分析等场景中具有重要价值。

🚀 快速开始

若要在生产环境中使用此开源模型，可考虑切换至 pyannoteAI，以获取更优质、更快速的选择。

本模型依赖于 pyannote.audio 2.1，请参考安装说明进行安装。

💻 使用示例

基础用法

# 1. 访问 hf.co/pyannote/segmentation 并接受用户条件
# 2. 访问 hf.co/settings/tokens 创建访问令牌
# 3. 实例化预训练的语音活动检测管道

from pyannote.audio import Pipeline
pipeline = Pipeline.from_pretrained("pyannote/voice-activity-detection",
                                    use_auth_token="ACCESS_TOKEN_GOES_HERE")
output = pipeline("audio.wav")

for speech in output.get_timeline().support():
    # 语音开始时间 speech.start 到结束时间 speech.end 之间为有效语音
    ...

📄 许可证

本项目采用 MIT 许可证。

🔖 引用

如果您在研究中使用了本模型，请引用以下论文：

@inproceedings{Bredin2021,
  Title = {{End-to-end speaker segmentation for overlap-aware resegmentation}},
  Author = {{Bredin}, Herv{\'e} and {Laurent}, Antoine},
  Booktitle = {Proc. Interspeech 2021},
  Address = {Brno, Czech Republic},
  Month = {August},
  Year = {2021},
}

@inproceedings{Bredin2020,
  Title = {{pyannote.audio: neural building blocks for speaker diarization}},
  Author = {{Bredin}, Herv{\'e} and {Yin}, Ruiqing and {Coria}, Juan Manuel and {Gelly}, Gregory and {Korshunov}, Pavel and {Lavechin}, Marvin and {Fustes}, Diego and {Titeux}, Hadrien and {Bouaziz}, Wassim and {Gill}, Marie-Philippe},
  Booktitle = {ICASSP 2020, IEEE International Conference on Acoustics, Speech, and Signal Processing},
  Address = {Barcelona, Spain},
  Month = {May},
  Year = {2020},
}

⚠️ 重要提示

收集的信息将有助于更好地了解 pyannote.audio 用户群体，并帮助其维护者申请资助以进一步改进。如果您是学术研究人员，请在自己的出版物中引用相关论文。如果您为公司工作，请考虑为 pyannote.audio 的开发做出贡献（例如通过无限制捐赠）。我们还围绕说话人分割和机器听觉提供科学咨询服务。